流
Google 用于 Gemma 4 的多词元预测草稿模型
谷歌发布面向 Gemma 4 系列的多词元预测(MTP)草稿模型,采用推测解码(speculative decoding)技术,在主模型进行最终校验的同时,实现最高 3 倍的推理加速。
信号 (Signal) Google 用于 Gemma 4 的多词元预测草稿模型(Multi-Token Prediction Draft Model for Gemma 4) · twitter · 2026-05-06 谷歌已开源面向 Gemma 4 系列的多词元预测(MTP)草稿模型。该轻量级辅助模型采用推测解码(speculative decoding)架构,可在主模型执行最终词元校验的同时,实现最高 3 倍的推理(inference)加速。
上下文 (Context) 多词元预测(Multi-Token Prediction, MTP)模型在推测解码工作流中充当草稿引擎(draft engine),在目标模型之前预测多个词元,以实现并行校验。通过解耦草稿生成与校验步骤,MTP 架构降低了自回归生成的延迟,使主模型能够在单次前向传播(forward pass)中批量处理提议的词元。谷歌此次开源 Gemma 4 的 MTP 草稿模型,在该模型族内标准化了这一模式,为操作者提供了一款预优化的辅助模型,可集成至推理管线中,在无需重新训练基础模型的前提下提升吞吐量。该组件作为更广泛的推理优化基础设施的一部分运作,其中辅助模型用于在计算效率与主模型提供的准确性保障之间取得平衡。
相关性 (Relevance) 开源(open source)MTP 草稿模型的可用性降低了在本地与边缘部署 Gemma 4 时采用推测解码的门槛。操作者可利用该组件在消费级硬件上实现显著的加速,从而支撑推理优化基础设施回路(inference-optimization-infrastructure circuit)。此次发布也为草稿-校验模式确立了参考实现,促进了与 vLLM 和 SGLang 等支持推测解码的推理引擎的互操作性。通过提供专用草稿模型,谷歌使开发者能够在保持主 Gemma 4 模型安全性与校验属性的同时,优化推理性能。
当前状态 (Current State) 谷歌已作为开源工件发布了 Gemma 4 系列的 MTP 草稿模型权重与配置文件。该模型设计为与主 Gemma 4 模型协同运行,无需修改基础权重。它旨在集成至支持推测解码的推理运行时中,在支持的配置下可实现最高 3 倍的加速。
待解问题 (Open Questions)
- 与基础 Gemma 4 模型相比,MTP 模型在激进量化下的性能衰减程度如何?
- 在不同硬件后端上,MTP 模型的最佳草稿预算与校验比例是多少?
- 是否存在标准化的配置文件,用于将 MTP 模型集成至 vLLM 或 SGLang 等主流推理框架?
- MTP 架构是否支持动态词元预测长度,还是受限于固定的草稿窗口?
关联 (Connections)
- Google Gemma 4 Open Model Family — Gemma 4 模型族的草稿模型组件
- Qwen3-4B DFlash Speculative Decoding Drafter — 推测解码草稿模型模式对比
- Qwen3-8B-DFlash-b16 — 推测解码草稿模型模式对比
- Qwen3-Coder-30B-A3B-DFlash — 推测解码草稿模型模式对比
译注 (Translator's Note)
- 词元(Token):中文 AI 语境常译作“令牌”或“词元”。此处采用“词元”,以贴合其作为语言基本语义单位的理(lǐ),避免“令牌”带来的权限/凭证隐喻干扰技术指涉。
- 回路(Circuit):原文指代“inference-optimization-infrastructure circuit”。译为“回路”,取循环往复、闭合自洽之意,强调该组件在推理管线中形成的稳定反馈与优化闭环,而非单纯的电路或路径。
- 术语双语并置:依 Openflows 音译原则,关键架构术语在首次出现时保留中英对照,以维持技术指涉的精确性与跨语言流动的理路;不将一方坍缩为另一方,使修行者(practitioner)在双语间自由穿行。