刚刚发布!Qwen 3.7 凶猛登场:Arena 榜单杀入全球前15,刷新国产模型新高度

2026-05-20 13 0

2026年5月19日,阿里巴巴通义千问毫无征兆地扔出了一颗重磅炸弹——Qwen 3.7系列预览版悄然上线 Arena,第二天(5月20日)便在阿里云峰会上正式压轴亮相。这是继4月底 Qwen 3.6 之后,阿里在不到一个月内再次迭代的新版本。

Qwen 3.7 这次推出了两个版本:Qwen3.7-Max-Preview(文本旗舰版)和 Qwen3.7-Plus-Preview(多模态视觉版)。前者专注于推理、编程和数学能力,后者强化多模态视觉理解。

Arena 榜单:国产第一,全球前列

文本领域,Qwen3.7-Max-Preview 在 Arena 总榜中排名第13位,是全球前15中唯一一个中国模型。在它前面的全部是美国头部模型:Claude Opus 4.6/4.7、Gemini 3.1/3 Pro、GPT-5.4/5.4-High。这意味着在纯文本综合能力上,Qwen 3.7 已经与全球最顶尖的闭源模型站在了同一梯队。

视觉领域的 Qwen3.7-Plus-Preview 排名第16,阿里巴巴整体在视觉榜单上排名全球第5,同样是国产模型第一。

核心性能数据

来自 Qwen 官方博客的数据显示,Qwen3.7-Max 在编程 Agent 基准上全面超越 Qwen3.6-Plus:Terminal Bench 2.0 达到 69.7(vs 61.6),SWE-Pro 达到 60.6(vs 56.6),SWE-Multilingual 达到 78.3,QwenSVG 达到 1608(vs 1432)。

通用 Agent 基准方面,Qwen3.7-Max 在 Qwenclaw(64.3)、CoWorkBench(67.2)、ClawEval(65.2)三个测试中均取得领先。

实测亮点

超长链路推理:该模型能够在超过1000次工具调用的长链路任务中维持连贯的优化策略,不丢上下文。更值得关注的是,它能够在从未见过的硬件架构上,通过运行时反馈而非预训练记忆来生成竞争性的代码内核。

YC-Bench 创业模拟:Qwen3.7-Max 在这项模拟新创公司一年完整生命周期的测试中实现208万美元营收,是 Qwen3.6-Plus(105万)的2倍,Qwen3.5-Plus(35.2万)的5.9倍,完成237项任务。

数学与编程实测:4分钟解出一道 IMO 级别难题,位列 Arena 数学榜单全球第7;3分钟构建可交互的 macOS 桌面原型。

推理速度:经三轮优化,综合加速达10.5倍

技术规格

Qwen3.7-Max 采用 MoE 架构,128位专家,每前向传递激活8位。上下文窗口100万 tokens,最大输出 65536 tokens,支持 Thinking 和 Non-Thinking 双模式。

发布节奏提速

从2023-2024年的4-6个月一更新,到2026年几乎2-3个月就有一个大版本,Qwen 已经进入高频交付阶段。Preview 版本先上社区测试、正式版跟进的策略,也让阿里能积累更多真实场景数据。

如何体验

  • Qwen Chat:chat.qwen.ai
  • Qwen Studio:qwenstudio.ai
  • Arena AI:arena.ai

同天阿里云峰会上还发布了新型 AI 芯片真武 M890,剑指英伟达产品线。Qwen 3.7 压轴亮相,标志着阿里正在构建从芯片到模型到应用的完整 AI 生态系统。

相关文章

Qwen 3.7 测试
Google 正式发布 Antigravity 2.0:一站式 AI Agent 工作站,让 AI替你写代码、调度任务、甚至从零构建操作系统
OpenClaw v2026.5.19 更新发布
OpenAI 联合创始人 Andrej Karpathy 加入 Anthropic,一文回顾他的完整职业生涯与贡献
OpenClaw v2026.5.19-beta.1 更新发布
Google I/O 2026 全面总结:Gemini 3.5、Omni、Spark、眼镜、Googlebook 等重磅发布