Qwen 3.7 这次推出了两个版本:Qwen3.7-Max-Preview(文本旗舰版)和 Qwen3.7-Plus-Preview(多模态视觉版)。前者专注于推理、编程和数学能力,后者强化多模态视觉理解。
Arena 榜单:国产第一,全球前列
文本领域,Qwen3.7-Max-Preview 在 Arena 总榜中排名第13位,是全球前15中唯一一个中国模型。在它前面的全部是美国头部模型:Claude Opus 4.6/4.7、Gemini 3.1/3 Pro、GPT-5.4/5.4-High。这意味着在纯文本综合能力上,Qwen 3.7 已经与全球最顶尖的闭源模型站在了同一梯队。
视觉领域的 Qwen3.7-Plus-Preview 排名第16,阿里巴巴整体在视觉榜单上排名全球第5,同样是国产模型第一。
核心性能数据
来自 Qwen 官方博客的数据显示,Qwen3.7-Max 在编程 Agent 基准上全面超越 Qwen3.6-Plus:Terminal Bench 2.0 达到 69.7(vs 61.6),SWE-Pro 达到 60.6(vs 56.6),SWE-Multilingual 达到 78.3,QwenSVG 达到 1608(vs 1432)。
通用 Agent 基准方面,Qwen3.7-Max 在 Qwenclaw(64.3)、CoWorkBench(67.2)、ClawEval(65.2)三个测试中均取得领先。
实测亮点
超长链路推理:该模型能够在超过1000次工具调用的长链路任务中维持连贯的优化策略,不丢上下文。更值得关注的是,它能够在从未见过的硬件架构上,通过运行时反馈而非预训练记忆来生成竞争性的代码内核。
YC-Bench 创业模拟:Qwen3.7-Max 在这项模拟新创公司一年完整生命周期的测试中实现208万美元营收,是 Qwen3.6-Plus(105万)的2倍,Qwen3.5-Plus(35.2万)的5.9倍,完成237项任务。
数学与编程实测:4分钟解出一道 IMO 级别难题,位列 Arena 数学榜单全球第7;3分钟构建可交互的 macOS 桌面原型。
推理速度:经三轮优化,综合加速达10.5倍。
技术规格
Qwen3.7-Max 采用 MoE 架构,128位专家,每前向传递激活8位。上下文窗口达100万 tokens,最大输出 65536 tokens,支持 Thinking 和 Non-Thinking 双模式。
发布节奏提速
从2023-2024年的4-6个月一更新,到2026年几乎2-3个月就有一个大版本,Qwen 已经进入高频交付阶段。Preview 版本先上社区测试、正式版跟进的策略,也让阿里能积累更多真实场景数据。
如何体验
- Qwen Chat:chat.qwen.ai
- Qwen Studio:qwenstudio.ai
- Arena AI:arena.ai
同天阿里云峰会上还发布了新型 AI 芯片真武 M890,剑指英伟达产品线。Qwen 3.7 压轴亮相,标志着阿里正在构建从芯片到模型到应用的完整 AI 生态系统。