刚刚发布！Qwen 3.7 凶猛登场：Arena 榜单杀入全球前15，刷新国产模型新高度|AI 自学笔记

2026年5月19日，阿里巴巴通义千问毫无征兆地扔出了一颗重磅炸弹——Qwen 3.7系列预览版悄然上线 Arena，第二天（5月20日）便在阿里云峰会上正式压轴亮相。这是继4月底 Qwen 3.6 之后，阿里在不到一个月内再次迭代的新版本。

Qwen 3.7 这次推出了两个版本：Qwen3.7-Max-Preview（文本旗舰版）和 Qwen3.7-Plus-Preview（多模态视觉版）。前者专注于推理、编程和数学能力，后者强化多模态视觉理解。

Arena 榜单：国产第一，全球前列

文本领域，Qwen3.7-Max-Preview 在 Arena 总榜中排名第13位，是全球前15中唯一一个中国模型。在它前面的全部是美国头部模型：Claude Opus 4.6/4.7、Gemini 3.1/3 Pro、GPT-5.4/5.4-High。这意味着在纯文本综合能力上，Qwen 3.7 已经与全球最顶尖的闭源模型站在了同一梯队。

视觉领域的 Qwen3.7-Plus-Preview 排名第16，阿里巴巴整体在视觉榜单上排名全球第5，同样是国产模型第一。

核心性能数据

来自 Qwen 官方博客的数据显示，Qwen3.7-Max 在编程 Agent 基准上全面超越 Qwen3.6-Plus：Terminal Bench 2.0 达到 69.7（vs 61.6），SWE-Pro 达到 60.6（vs 56.6），SWE-Multilingual 达到 78.3，QwenSVG 达到 1608（vs 1432）。

通用 Agent 基准方面，Qwen3.7-Max 在 Qwenclaw（64.3）、CoWorkBench（67.2）、ClawEval（65.2）三个测试中均取得领先。

实测亮点

超长链路推理：该模型能够在超过1000次工具调用的长链路任务中维持连贯的优化策略，不丢上下文。更值得关注的是，它能够在从未见过的硬件架构上，通过运行时反馈而非预训练记忆来生成竞争性的代码内核。

YC-Bench 创业模拟：Qwen3.7-Max 在这项模拟新创公司一年完整生命周期的测试中实现208万美元营收，是 Qwen3.6-Plus（105万）的2倍，Qwen3.5-Plus（35.2万）的5.9倍，完成237项任务。

数学与编程实测：4分钟解出一道 IMO 级别难题，位列 Arena 数学榜单全球第7；3分钟构建可交互的 macOS 桌面原型。

推理速度：经三轮优化，综合加速达10.5倍。

技术规格

Qwen3.7-Max 采用 MoE 架构，128位专家，每前向传递激活8位。上下文窗口达100万 tokens，最大输出 65536 tokens，支持 Thinking 和 Non-Thinking 双模式。

发布节奏提速

从2023-2024年的4-6个月一更新，到2026年几乎2-3个月就有一个大版本，Qwen 已经进入高频交付阶段。Preview 版本先上社区测试、正式版跟进的策略，也让阿里能积累更多真实场景数据。

如何体验

Qwen Chat：chat.qwen.ai
Qwen Studio：qwenstudio.ai
Arena AI：arena.ai

同天阿里云峰会上还发布了新型 AI 芯片真武 M890，剑指英伟达产品线。Qwen 3.7 压轴亮相，标志着阿里正在构建从芯片到模型到应用的完整 AI 生态系统。

刚刚发布！Qwen 3.7 凶猛登场：Arena 榜单杀入全球前15，刷新国产模型新高度

📌 相关推荐