阿里通义千问Qwen3.7-Max首发评测:旗舰推理模型登陆Arena AI,明日正式发布

2026-05-19 3 0

2026年5月19日,阿里云千问大模型 Qwen3.7-Max-PreviewQwen3.7-Plus-Preview 悄然上线 Qwen Chat 和 Arena AI(原 LMArena),预计于明日(5月20日)阿里云峰会上正式发布。这是阿里在大模型军备赛中的又一次密集落子,也是 Qwen 系列迈向全球顶级推理模型梯队的重要一步。

Arena AI 评测截图

核心数据一览

根据第三方权威评测平台 Arena AI(采用全球用户匿名盲评机制)的最新榜单,Qwen3.7-Max-Preview 的评测成绩如下:

评测维度 排名
文本领域综合榜 第13名
数学领域 第7名
专家级应用 第9名
软件与 IT 第9名
编程能力 第10名
专家竞技场(专家级提示) 第9名
通义千问机构总排名 全球第6

视觉方向上,Qwen3.7-Plus-Preview 综合排名第16位,将通义千问在视觉榜的实验室排名提升至全球第5

通义千问历代旗舰

Qwen3.7 系列定位

本次上线的是两款预览版(Preview),定位清晰:

  • Qwen3.7-Max-Preview:Qwen3.7 旗舰模型的预览版,主打综合性能天花板,仅支持思考模式(Thinking Mode),搜索工具与代码解释器暂不可用。
  • Qwen3.7-Plus-Preview:Qwen3.7 系列的高性能均衡版预览,同样聚焦推理与逻辑表达,工具链待后续开放。

预览版的功能限制是刻意的——评测阶段将模型本体单独拎出跑分,剥掉所有外挂工具,是为了让分数更干净,避免"模型不行但搜索来救场"的情况。

技术亮点

1. 万亿参数 + 36T Tokens 预训练

根据官方披露,Qwen3.7-Max-Preview 沿用了 Qwen3-Max 确立的架构范式,总参数量超过 1万亿(1T),预训练数据量高达 36T Tokens,是目前阿里规模最大的推理模型之一。

2. 思考模式(Thinking Mode)

预览版仅开放思考模式,这意味着模型在输出最终答案前,会经过完整的内部推理链路(Chain-of-Thought),适合复杂推理、数学证明、代码调试等高难度任务。

3. 子榜单全面开花

相比上一代 Qwen3.6 系列,Qwen3.7-Max-Preview 在多个细分领域的表现更为均衡:数学从 Qwen3.6 的水平进一步攀升,跻身第7位;编程第10位,延续了 Qwen 在 Agentic Coding 方向上的持续投入;专家级应用与数学、编程形成三足鼎立。

从追赶者到并跑者:Qwen 的迭代速度

值得关注的是迭代节奏。今年以来,阿里的模型发布密度显著加快:

  • Qwen3.5 系列:主打长上下文(最高100万 tokens)和多模态融合
  • Qwen3.6-Max-Preview:强化世界知识、指令遵循、Agentic Coding
  • Qwen3.6-Plus:升级 Vibe Coding,多模态识别更强
  • Qwen3.7 双 Preview:直接登场,间隔压缩至数周

Qwen3.7 迭代历程

全球竞争格局

Qwen3.7-Max-Preview 跻身 Arena AI 文本综合榜第13位,通义千问机构排名全球第六。前10名几乎被 GPT、Claude、Gemini 几家瓜分,能在这个区间站稳,说明 Qwen3.7 旗舰已经不再是"追赶者",而是开始与全球顶尖模型并跑

尤其值得注意的是"专家竞技场"(Expert Arena)——这个子榜单只统计专家级提示词,背后多是真实开发者、研究者抛出的复杂问题。能在这里冲到第9,意味着模型在长链路推理、复杂任务拆解上确实有真东西。

价格:性价比依然是杀手锏

对一线开发者而言,榜单排名只是参考。参考 Qwen3.6-Max-Preview 的定价(输入约9~15元/百万tokens,输出约54~90元/百万tokens),如果 Qwen3.7 正式版能维持这个价格段,对比 GPT 和 Claude 旗舰的价格,Qwen-Max 依然是"够用且便宜"的代表。

明日正式发布:值得关注的看点

  1. Agentic Coding 是否全面开放:从3.6开始,编程能力就是 Qwen 的发力点,3.7是否会解锁完整的代码解释器和工具调用能力,值得关注。
  2. 思考/非思考双模是否融合:参考 Qwen3.5 系列的设计思路,正式版大概率会延续"思考模式+普通模式双模融合"的架构。
  3. 定价是否调整:如果正式版在性能提升的同时维持现有价格区间,将对 GPT-4.5、Claude Opus 4.5 形成更大的性价比压力。

DataLearner评测

报道完成时间:2026年5月19日 | 图片来源:IT之家、DataLearner AI(均为真实截图,非AI生成)

相关文章

马斯克起诉OpenAI案败诉:陪审团两小时内驳回全部诉请
OpenClaw v2026.5.18 更新发布
OpenClaw v2026.5.18 更新发布
OpenClaw v2026.5.18 更新发布
FLUX Outpainting:将任意图像向任意方向扩展
腾讯推出AI设计工具Ardot:让灵感鲜活落地