MiniCPM-V 4.6 发布：1.3B 参数挑战多模态极限，手机上就能跑

MiniCPM-V 4.6 来了。2026 年 5 月 11 日，OpenBMB 团队正式开源了 MiniCPM-V 系列的最新成员——MiniCPM-V 4.6。这是一款总参数量仅 1.3B 的多模态大语言模型，却能在多项基准测试中超越远大于它的竞争对手，并支持在 iOS、Android、HarmonyOS 等主流手机平台上实时运行。

架构解析：SigLIP2 + Qwen3.5-0.8B 的精妙组合

MiniCPM-V 4.6 的核心架构由两部分组成：视觉侧采用 SigLIP2-400M 作为视觉编码器，语言侧则接入了 Qwen3.5-0.8B 大语言模型。两者通过 LLaVA-UHD v4 中提出的 Intra-VIT Early Compression（VIT 内早期压缩）技术进行对齐。

所谓 Intra-VIT Early Compression，是指在视觉编码器的早期层就完成压缩操作，将原始像素级别的特征逐步抽象为紧凑的视觉 token。与传统方法相比，这一技术路线可以将视觉编码的计算量减少超过 50%，同时不损失甚至提升下游任务的准确率。

更值得关注的是，MiniCPM-V 4.6 支持混合 4x/16x 视觉 token 压缩率。这意味着模型可以根据任务复杂度灵活切换：简单问题用 16x 压缩以获得极致速度，复杂问题用 4x 压缩以获得更高精度。这种精度-速度的动态平衡，是 MiniCPM-V 4.6 能够在手机端流畅运行的关键工程创新。

性能实测：多项基准超越 Qwen3.5-2B

不要被它的体积迷惑了。在 Artificial Analysis Intelligence Index 基准上，MiniCPM-V 4.6 得分 13，超过 Qwen3.5-0.8B（得分 10，但 token 成本高出 19 倍）和 Qwen3.5-0.8B-Thinking（得分 11，token 成本高出 43 倍）。它甚至超越了参数量更大的 Ministral 3 3B（得分 11）。

在 OpenCompass、RefCOCO、HallusionBench、MUIRBench、OCRBench 等主流多模态基准上，MiniCPM-V 4.6 的表现达到甚至超过Qwen3.5-2B 级别。作为对比，Qwen3.5-2B 的参数量约为 MiniCPM-V 4.6 的 1.5 倍，而 MiniCPM-V 4.6 在部分任务上还能反超。

效率方面，得益于视觉编码的极致优化，MiniCPM-V 4.6 的 token 吞吐量约为 Qwen3.5-0.8B 的 1.5 倍。这意味着在同样的手机芯片上，MiniCPM-V 4.6 不只更强，响应也更快。

移动端部署：iOS、Android、HarmonyOS 全覆盖

MiniCPM-V 4.6 真正令人印象深刻的地方在于它的端侧运行能力。OpenBMB 团队同步开源了面向三大主流移动平台的适配代码，实测覆盖 iPhone 17 Pro Max、Redmi K70、HUAWEI nova 14 等多款设备。

所有边缘适配代码均已开源，开发者只需几步即可在自己的移动设备上复现体验。在实际演示中，团队展示了用手机摄像头实时理解场景、回答用户关于图片内容的问题等场景，延迟和流畅度均达到了可用的水平。

量化版本方面，MiniCPM-V 4.6 提供了丰富的选择：GGUF、AWQ、GPTQ、BNB 等主流量化格式均有官方支持，Apple 设备还有 mlx-community 的 MLX 版本。第三方社区还衍生了多个 un-censored/ablation 版本，总计衍生模型超过 70 个。

推理框架支持

在服务端和桌面端，MiniCPM-V 4.6 的生态也非常完善。SGLang、vLLM、llama.cpp、Ollama 等主流推理框架均已支持，SWIFT 和 LLaMA-Factory 两大微调框架也提供了开箱即用的支持，开发者可以在消费级 GPU 上快速对模型进行领域定制。

OpenBMB 团队还于 2026 年 5 月 17 日发布了官方 API 服务，并提供公开的免费 API key，开发者无需本地部署即可体验。

总结

MiniCPM-V 4.6 证明了多模态大模型并不一定要大才能强。通过 Intra-VIT Early Compression 和混合压缩率两大技术创新，它在 1.3B 参数的极小体积内，实现了超越 Qwen3.5-2B 的多模态理解能力，同时在手机端拥有 1.5 倍于 Qwen3.5-0.8B 的响应速度。

MiniCPM-V 4.6 发布：1.3B 参数挑战多模态极限，手机上就能跑

架构解析：SigLIP2 + Qwen3.5-0.8B 的精妙组合

性能实测：多项基准超越 Qwen3.5-2B

移动端部署：iOS、Android、HarmonyOS 全覆盖

推理框架支持

总结

Grok V9 来了！马斯克搞了个1.5T的大家伙，专门用来写代码

AI 自学笔记