Skip to content

MiniCPM-V 4.6 发布:1.3B 参数挑战多模态极限,手机上就能跑

darlingyc

MiniCPM-V 4.6 来了。2026 年 5 月 11 日,OpenBMB 团队正式开源了 MiniCPM-V 系列的最新成员——MiniCPM-V 4.6。这是一款总参数量仅 1.3B 的多模态大语言模型,却能在多项基准测试中超越远大于它的竞争对手,并支持在 iOS、Android、HarmonyOS 等主流手机平台上实时运行。

架构解析:SigLIP2 + Qwen3.5-0.8B 的精妙组合

MiniCPM-V 4.6 的核心架构由两部分组成:视觉侧采用 SigLIP2-400M 作为视觉编码器,语言侧则接入了 Qwen3.5-0.8B 大语言模型。两者通过 LLaVA-UHD v4 中提出的 Intra-VIT Early Compression(VIT 内早期压缩)技术进行对齐。

所谓 Intra-VIT Early Compression,是指在视觉编码器的早期层就完成压缩操作,将原始像素级别的特征逐步抽象为紧凑的视觉 token。与传统方法相比,这一技术路线可以将视觉编码的计算量减少超过 50%,同时不损失甚至提升下游任务的准确率。

更值得关注的是,MiniCPM-V 4.6 支持混合 4x/16x 视觉 token 压缩率。这意味着模型可以根据任务复杂度灵活切换:简单问题用 16x 压缩以获得极致速度,复杂问题用 4x 压缩以获得更高精度。这种精度-速度的动态平衡,是 MiniCPM-V 4.6 能够在手机端流畅运行的关键工程创新。

性能实测:多项基准超越 Qwen3.5-2B

不要被它的体积迷惑了。在 Artificial Analysis Intelligence Index 基准上,MiniCPM-V 4.6 得分 13,超过 Qwen3.5-0.8B(得分 10,但 token 成本高出 19 倍)和 Qwen3.5-0.8B-Thinking(得分 11,token 成本高出 43 倍)。它甚至超越了参数量更大的 Ministral 3 3B(得分 11)。

在 OpenCompass、RefCOCO、HallusionBench、MUIRBench、OCRBench 等主流多模态基准上,MiniCPM-V 4.6 的表现达到甚至超过Qwen3.5-2B 级别。作为对比,Qwen3.5-2B 的参数量约为 MiniCPM-V 4.6 的 1.5 倍,而 MiniCPM-V 4.6 在部分任务上还能反超。

效率方面,得益于视觉编码的极致优化,MiniCPM-V 4.6 的 token 吞吐量约为 Qwen3.5-0.8B 的 1.5 倍。这意味着在同样的手机芯片上,MiniCPM-V 4.6 不只更强,响应也更快。

移动端部署:iOS、Android、HarmonyOS 全覆盖

MiniCPM-V 4.6 真正令人印象深刻的地方在于它的端侧运行能力。OpenBMB 团队同步开源了面向三大主流移动平台的适配代码,实测覆盖 iPhone 17 Pro Max、Redmi K70、HUAWEI nova 14 等多款设备。

所有边缘适配代码均已开源,开发者只需几步即可在自己的移动设备上复现体验。在实际演示中,团队展示了用手机摄像头实时理解场景、回答用户关于图片内容的问题等场景,延迟和流畅度均达到了可用的水平。

量化版本方面,MiniCPM-V 4.6 提供了丰富的选择:GGUF、AWQ、GPTQ、BNB 等主流量化格式均有官方支持,Apple 设备还有 mlx-community 的 MLX 版本。第三方社区还衍生了多个 un-censored/ablation 版本,总计衍生模型超过 70 个。

推理框架支持

在服务端和桌面端,MiniCPM-V 4.6 的生态也非常完善。SGLang、vLLM、llama.cpp、Ollama 等主流推理框架均已支持,SWIFT 和 LLaMA-Factory 两大微调框架也提供了开箱即用的支持,开发者可以在消费级 GPU 上快速对模型进行领域定制。

OpenBMB 团队还于 2026 年 5 月 17 日发布了官方 API 服务,并提供公开的免费 API key,开发者无需本地部署即可体验。

总结

MiniCPM-V 4.6 证明了多模态大模型并不一定要大才能强。通过 Intra-VIT Early Compression 和混合压缩率两大技术创新,它在 1.3B 参数的极小体积内,实现了超越 Qwen3.5-2B 的多模态理解能力,同时在手机端拥有 1.5 倍于 Qwen3.5-0.8B 的响应速度。

如果你对端侧多模态模型感兴趣,MiniCPM-V 4.6 值得密切关注。