Skip to content

谷歌发布 Gemma 4 QAT:量化感知训练让27B模型压缩到1GB,本地运行成真

darlingyc

6月5日,Google DeepMind 正式发布了 Gemma 4 QAT(Quantization-Aware Training,量化感知训练)检查点。这是自今年4月 Gemma 4 开源以来,谷歌在模型压缩方向迈出的最大一步——让原本需要专业显卡才能运行的百亿参数大模型,现在能塞进普通笔记本电脑甚至部分手机里。

核心成果:内存占用降低约72%

Gemma 4 E2B(27B参数专家混合模型)在 QAT 优化后,内存占用从原本远超消费级显卡上限,压缩到了仅约 1GB。这意味着你可以在 16GB 显存的笔记本 GPU 上运行原来需要专业级硬件的模型。26B-A4B 模型同样被压缩到约 15GB,满足 16GB 显存的入门级 AI 工作站。

什么是量化感知训练?

传统的模型量化是在模型训练完成后再进行压缩处理,这个过程不可避免地会损失模型质量——就像把高清照片压缩成小文件,画面会变模糊。

QAT 的思路完全不同:它在训练阶段就”预演”量化过程,让模型提前适应未来的压缩操作。通过在训练中模拟低精度计算,模型学会了在量化后仍能保持关键能力。换句话说,QAT 训练出的模型天生”抗压缩”,压缩后质量损失极小。

这次发布的四种 QAT 格式

谷歌提供了针对不同场景优化的量化检查点:

  • Q4_0:经典的 4 位量化格式,适合消费级 GPU(如 RTX 3060/4060 系列),在大幅降低显存占用的同时保留较好的模型能力
  • 移动端专用格式:专为移动设备和边缘硬件设计,将 Gemma 4 E2B 压缩到 1GB,这在移动端 AI 部署中是突破性的数字
  • BF16 基准对比:QAT 版本与原始 BF16 精度版本相比,质量损失极小,部分测试甚至接近无损压缩

为什么这很重要?

大语言模型的”尺寸歧视”一直是开源社区的痛点:能力强的模型需要大显存,大显存意味着必须用云端 API 或者企业级硬件。Gemma 4 QAT 的出现打破了这个限制——开发者现在可以在本地设备上运行高质量的 27B 级模型,不需要按 token 付费,也不需要担心数据上云。

这对于需要本地部署的企业、在离线环境使用 AI 的场景,以及隐私敏感型应用来说,意义尤为重大。

支持工具覆盖主流生态

目前 Ollama、llama.cpp、vLLM、SGLang 均已支持 Gemma 4 QAT 格式,开发者可以根据自己的技术栈选择合适的部署方案。Hugging Face 上也已经上线了官方 QAT 检查点,加载即可使用。

随着 QAT 技术的成熟,预计会有更多开源模型跟进这一路线。谷歌这次率先在 Gemma 4 系列上大规模应用 QAT,既是技术实力的体现,也是对开源生态的一次有力推动——让更多人能在消费级硬件上用上最强开源模型。