
核心数据一览
根据第三方权威评测平台 Arena AI(采用全球用户匿名盲评机制)的最新榜单,Qwen3.7-Max-Preview 的评测成绩如下:
| 评测维度 | 排名 |
| 文本领域综合榜 | 第13名 |
| 数学领域 | 第7名 |
| 专家级应用 | 第9名 |
| 软件与 IT | 第9名 |
| 编程能力 | 第10名 |
| 专家竞技场(专家级提示) | 第9名 |
| 通义千问机构总排名 | 全球第6 |
视觉方向上,Qwen3.7-Plus-Preview 综合排名第16位,将通义千问在视觉榜的实验室排名提升至全球第5。

Qwen3.7 系列定位
本次上线的是两款预览版(Preview),定位清晰:
- Qwen3.7-Max-Preview:Qwen3.7 旗舰模型的预览版,主打综合性能天花板,仅支持思考模式(Thinking Mode),搜索工具与代码解释器暂不可用。
- Qwen3.7-Plus-Preview:Qwen3.7 系列的高性能均衡版预览,同样聚焦推理与逻辑表达,工具链待后续开放。
预览版的功能限制是刻意的——评测阶段将模型本体单独拎出跑分,剥掉所有外挂工具,是为了让分数更干净,避免"模型不行但搜索来救场"的情况。
技术亮点
1. 万亿参数 + 36T Tokens 预训练
根据官方披露,Qwen3.7-Max-Preview 沿用了 Qwen3-Max 确立的架构范式,总参数量超过 1万亿(1T),预训练数据量高达 36T Tokens,是目前阿里规模最大的推理模型之一。
2. 思考模式(Thinking Mode)
预览版仅开放思考模式,这意味着模型在输出最终答案前,会经过完整的内部推理链路(Chain-of-Thought),适合复杂推理、数学证明、代码调试等高难度任务。
3. 子榜单全面开花
相比上一代 Qwen3.6 系列,Qwen3.7-Max-Preview 在多个细分领域的表现更为均衡:数学从 Qwen3.6 的水平进一步攀升,跻身第7位;编程第10位,延续了 Qwen 在 Agentic Coding 方向上的持续投入;专家级应用与数学、编程形成三足鼎立。
从追赶者到并跑者:Qwen 的迭代速度
值得关注的是迭代节奏。今年以来,阿里的模型发布密度显著加快:
- Qwen3.5 系列:主打长上下文(最高100万 tokens)和多模态融合
- Qwen3.6-Max-Preview:强化世界知识、指令遵循、Agentic Coding
- Qwen3.6-Plus:升级 Vibe Coding,多模态识别更强
- Qwen3.7 双 Preview:直接登场,间隔压缩至数周

全球竞争格局
Qwen3.7-Max-Preview 跻身 Arena AI 文本综合榜第13位,通义千问机构排名全球第六。前10名几乎被 GPT、Claude、Gemini 几家瓜分,能在这个区间站稳,说明 Qwen3.7 旗舰已经不再是"追赶者",而是开始与全球顶尖模型并跑。
尤其值得注意的是"专家竞技场"(Expert Arena)——这个子榜单只统计专家级提示词,背后多是真实开发者、研究者抛出的复杂问题。能在这里冲到第9,意味着模型在长链路推理、复杂任务拆解上确实有真东西。
价格:性价比依然是杀手锏
对一线开发者而言,榜单排名只是参考。参考 Qwen3.6-Max-Preview 的定价(输入约9~15元/百万tokens,输出约54~90元/百万tokens),如果 Qwen3.7 正式版能维持这个价格段,对比 GPT 和 Claude 旗舰的价格,Qwen-Max 依然是"够用且便宜"的代表。
明日正式发布:值得关注的看点
- Agentic Coding 是否全面开放:从3.6开始,编程能力就是 Qwen 的发力点,3.7是否会解锁完整的代码解释器和工具调用能力,值得关注。
- 思考/非思考双模是否融合:参考 Qwen3.5 系列的设计思路,正式版大概率会延续"思考模式+普通模式双模融合"的架构。
- 定价是否调整:如果正式版在性能提升的同时维持现有价格区间,将对 GPT-4.5、Claude Opus 4.5 形成更大的性价比压力。
报道完成时间:2026年5月19日 | 图片来源:IT之家、DataLearner AI(均为真实截图,非AI生成)