今天早上,马斯克发了一条推。
他说,xAI 的新基座模型 Grok V9-Medium(1.5T) 刚刚训练完成,2-3 周后就会放出来给你们用。
就这么轻描淡写。但懂行的人一看就知道——这事不对劲。
不对劲在哪?马斯克紧接着说了一句话:
“This version included Cursor data for coding.”
划重点:Cursor Data。
01. Cursor 是什么?为什么要用它的数据?
Cursor 现在是 AI 编程工具里的当红炸子鸡。2024 年融资估值已经超过 30 亿美元,用户主要是专业开发者——这帮人天天用它处理几千行的复杂项目、重构整个代码库、跨文件做调试。
这些数据什么特点?质量极高。
普通程序员写代码和高级工程师写代码,语料价值差了十万八千里。而 Cursor 的付费用户恰恰就是这批高级工程师。他们的编程行为、上下文理解、调试思路,是真正高质量的编程数据。
xAI 为什么要专门用 Cursor 的数据来训练?因为 Grok 一直以来有个明显短板——编程能力不行。之前很多人测过,Grok 在代码生成、代码补全、复杂项目处理上,明显弱于 GPT-4o 和 Claude。
马斯克显然知道这个问题。他的解法很直接:找最好的数据,喂给最大的模型。
02. 1.5T 是什么概念?
参数量的跃升是第二个看点。
目前运行的 v8-small 是 0.5T 参数量,V9-Medium 直接翻了三倍到 1.5T。这个体量已经进入行业第一梯队:
| 模型 | 参数量 | 编程定位 |
|---|---|---|
| Grok v8-small | 0.5T | 轻量级 |
| Grok V9-Medium | 1.5T | 主级 |
| GPT-4o | ~1T | 通用旗舰 |
| Claude 3.5 | ~200B | 编程强者 |
| Kimi K2.6 | ~200B-400B | 国产编程 |
1.5T + Cursor 数据,这个组合让 V9-Medium 的编程能力直接瞄准 GPT-4o 的水平。不是要追赶,是要贴身。
03. 国内谁最慌?
答案很明确:Kimi、通义千问。
这两家目前都在大力推编程场景。Kimi 绑定了长文本优势,在 B 站砸了几千万投流获客;通义千问有阿里的生态支持,Coder 系列也在快速迭代。
但 Grok 有一个他们都没有的东西——马斯克生态。
X 平台的流量、SpaceX 的工程场景、甚至 Tesla 未来的代码训练资源,这些是其他模型公司复制不了的场景纵深。如果 V9 编程能力真的追平 GPT-4o,有海外开发需求的国内用户会第一个转向 Grok。
对 Kimi 来说,这不是利好。
04. 2-3 周后见真章
现在模型处于微调(Fine-tuning)+ 强化学习(RL)阶段,这个周期对于 1.5T 级别来说非常短,说明基础训练已经相当成熟。
两个月后,我们就能看到实测结果。到时候我会第一时间做横评——Grok V9 vs GPT-4o vs Kimi,编程能力谁更强?
现在只能说:马斯克这次是认真的。
(本文不唱多不唱空,数据来源为公开信息,实测等发布后。)