最近 AI 圈又有大动作!知名 AI 助手平台 OpenClaw 的创始人 Peter Steinberger 公布了一份重磅模型评测报告,从成功率、速度、费用三个关键维度对市面上主流的 32 个 AI 模型进行了全方位测评。这份数据对于我们选择合适的 AI 助手可以说是非常有参考价值了。
🥇 成功率 TOP 5:
1. Google Gemini 3 Flash Preview
2. MiniMax M2.1(这匹黑马真的让人惊喜)
3. Moonshot AI Kimi K2.5
4. Anthropic Claude Sonnet 4.5
5. Google Gemini 3 Pro Preview
有意思的是,MiniMax M2.1 的表现可以说超出了很多人的预期,连创始人都在评测中直言"比我想象能打"。而更高端的 M2.5 反而垫底,成功率只有 35.5%,这你敢信?
其他我们熟悉的模型表现如下:
- OpenAI GPT-5 Nano 排名第 9
- Qwen Qwen3 Coder Next 排名第 10
- Z-AI GLM 4.5 Air 排名第 11
- DeepSeek V3.2 排名第 15
⚡ 速度方面则是另一番景象:
1. MiniMax M2.5
2. Google Gemini 2.0 Flash
3. Meta Llama 3.1 70B
4. Google Gemini 1.5 Pro
5. Mistral Large
不过这里要提醒大家,速度快的成功率未必高。比如上面这些"闪电侠"们,大部分成功率都在 20 名开外。
💰 最后来看看性价比,也就是费用排名:
1. OpenAI GPT-5 Nano
2. Google Gemini 2.5 Flash Lite
3. MistralAI Devstral 2512
4. OpenAI GPT-4o Mini
5. MiniMax M2.1
看完这份榜单,我的结论是:如果要选一个"全能选手",MiniMax M2.1 绝对是性价比之王——成功率高、速度不慢、价格还便宜!如果你用的是他们家的 Coding Plan,完全可以切换到这个模型试试水。
当然,Kimi K2.5 也是个不错的选择,综合实力相当强劲。
具体数据可以到 pinchbench.com 查看详细排名。