不改模型、不降质量,谷歌让Gemma 4快了3倍:本地跑大模型彻底变天

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
资源拓展
不改模型、不降质量,谷歌让Gemma 4快了3倍:本地跑大模型彻底变天
2026-05-06 14:56

不改模型、不降质量,谷歌让Gemma 4快了3倍:本地跑大模型彻底变天


Gemma 4推理速度提升3倍,谷歌靠的是这项技术


谷歌刚刚给Gemma 4家族更新了一项关键能力:Multi-Token Prediction(MTP)推测解码架构,推理速度最高提升3倍,输出质量不变。


不改模型、不降质量,谷歌让Gemma 4快了3倍:本地跑大模型彻底变天


就在几周前,Gemma 4刚刚发布,首批下载量已超6000万次。这次更新直接瞄准了开发者最关心的痛点——速度。


为什么LLM推理慢?


根本原因在于内存带宽瓶颈。


标准大模型每次只能生成一个token,处理器需要把数十亿参数从显存搬到计算单元,才能完成这一个token的预测。不管是预测简单词语还是解复杂逻辑,每一步消耗的算力是一样的,计算资源大量闲置,延迟自然居高不下,在消费级硬件上尤为明显。


MTP如何解决这个问题?


核心思路是:用一个轻量级的草稿模型,提前预测多个token,再让大模型并行验证。


具体流程是:轻量草稿模型(drafter)利用闲置算力,在大模型处理一个token的时间里,连续预测出多个候选token;大模型随后对这批候选token做一次并行验证,如果全部认可,就直接接受整个序列,并额外生成一个新token。


结果是:原本生成一个token的时间,现在可以输出整个草稿序列加一个额外token。


这一技术最初来自谷歌研究人员发表的论文 Fast Inference from Transformers via Speculative Decoding。


全面利好开发者


对于部署场景,MTP drafters带来的具体改变包括:


近实时响应:实时对话、语音应用、多步骤智能体工作流的延迟大幅降低。


本地开发提速:26B MoE和31B Dense模型可以在个人电脑和消费级GPU上跑出更快速度,离线编码和复杂工作流不再卡顿。


边缘设备增强:E2B和E4B模型在边缘设备上的输出速度提升,同时降低电池消耗。


质量零损失:大模型保留最终验证权,推理精度和输出质量与原版完全一致。


不改模型、不降质量,谷歌让Gemma 4快了3倍:本地跑大模型彻底变天


技术细节


为了让草稿模型跑得更快、预测更准,谷歌做了几项架构层面的优化。


草稿模型直接复用目标大模型的激活值,并共享其KV缓存,不需要重新计算大模型已经处理过的上下文,避免了重复计算。


针对E2B和E4B边缘模型,由于最终logit计算是主要瓶颈,谷歌在嵌入层引入了高效聚类技术,进一步加速生成。


在硬件适配方面,26B MoE模型在Apple Silicon上以batch size 1运行时,由于混合专家模型的路由特性,加速效果有限;但当batch size提升到4到8时,本地推理速度可提升约2.2倍。NVIDIA A100在增大batch size后也观察到类似增益。


如何使用


MTP drafters现已以Apache 2.0开源协议发布,与Gemma 4保持一致。模型权重可在 Hugging Face 和 Kaggle 下载,支持 transformers、MLX、vLLM、SGLang、Ollama 等主流推理框架,也可通过 Google AI Edge Gallery 在 Android 或 iOS 上直接体验。


谷歌可能已经把这个技术扩展到全系列模型了


技术架构详解、KV缓存共享和嵌入加速的完整说明,谷歌已发布专项技术文档,可查阅官方文档了解具体用法。


https://ai.google.dev/gemma/docs/mtp/overview?hl=zh-cn


文章来自于"AI寒武纪",作者 "AI寒武纪"。

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
IOS下载
安卓下载
微信群