谷歌发布 Gemma 4 QAT：量化感知训练让27B模型压缩到1GB，本地运行成真

6月5日，Google DeepMind 正式发布了 Gemma 4 QAT（Quantization-Aware Training，量化感知训练）检查点。这是自今年4月 Gemma 4 开源以来，谷歌在模型压缩方向迈出的最大一步——让原本需要专业显卡才能运行的百亿参数大模型，现在能塞进普通笔记本电脑甚至部分手机里。

核心成果：内存占用降低约72%

Gemma 4 E2B（27B参数专家混合模型）在 QAT 优化后，内存占用从原本远超消费级显卡上限，压缩到了仅约 1GB。这意味着你可以在 16GB 显存的笔记本 GPU 上运行原来需要专业级硬件的模型。26B-A4B 模型同样被压缩到约 15GB，满足 16GB 显存的入门级 AI 工作站。

什么是量化感知训练？

传统的模型量化是在模型训练完成后再进行压缩处理，这个过程不可避免地会损失模型质量——就像把高清照片压缩成小文件，画面会变模糊。

QAT 的思路完全不同：它在训练阶段就”预演”量化过程，让模型提前适应未来的压缩操作。通过在训练中模拟低精度计算，模型学会了在量化后仍能保持关键能力。换句话说，QAT 训练出的模型天生”抗压缩”，压缩后质量损失极小。

这次发布的四种 QAT 格式

谷歌提供了针对不同场景优化的量化检查点：

Q4_0：经典的 4 位量化格式，适合消费级 GPU（如 RTX 3060/4060 系列），在大幅降低显存占用的同时保留较好的模型能力
移动端专用格式：专为移动设备和边缘硬件设计，将 Gemma 4 E2B 压缩到 1GB，这在移动端 AI 部署中是突破性的数字
BF16 基准对比：QAT 版本与原始 BF16 精度版本相比，质量损失极小，部分测试甚至接近无损压缩

为什么这很重要？

大语言模型的”尺寸歧视”一直是开源社区的痛点：能力强的模型需要大显存，大显存意味着必须用云端 API 或者企业级硬件。Gemma 4 QAT 的出现打破了这个限制——开发者现在可以在本地设备上运行高质量的 27B 级模型，不需要按 token 付费，也不需要担心数据上云。

这对于需要本地部署的企业、在离线环境使用 AI 的场景，以及隐私敏感型应用来说，意义尤为重大。

支持工具覆盖主流生态

目前 Ollama、llama.cpp、vLLM、SGLang 均已支持 Gemma 4 QAT 格式，开发者可以根据自己的技术栈选择合适的部署方案。Hugging Face 上也已经上线了官方 QAT 检查点，加载即可使用。

随着 QAT 技术的成熟，预计会有更多开源模型跟进这一路线。谷歌这次率先在 Gemma 4 系列上大规模应用 QAT，既是技术实力的体现，也是对开源生态的一次有力推动——让更多人能在消费级硬件上用上最强开源模型。