Transformer祖制被Kimi突破!谷歌大V高赞:触碰了十年没人敢碰的禁区

2026-03-17 90 0

2026年,中国AI初创公司月之暗面(Moonshot AI)推出的Kimi Transformer模型系列,在Transformer架构的底层研究上取得了显著突破,特别是其名为「Attention Residuals」的研究成果。此项突破解决了Transformer架构中十年未决的残差连接和预归一化稀释问题。

十年禁区的突破

Kimi团队发现自2015年ResNet论文提出的残差连接公式被所有主流大型语言模型沿用至今,但存在缺陷——导致深层贡献被稀释以及有效深度受限等问题。

Kimi的「Attention Residuals」研究通过引入注意力机制来决定哪些层的信息更重要,而非像传统方法那样平等对待每一层,从而提高了计算效率和模型性能。

谷歌大V高度评价

这一进展获得了谷歌高级AI产品经理Shubham Saboo的高度评价,他表示:「Kimi触及了十年间无人敢碰的禁区!」这一评价在AI圈引发热议,有网友称这是「天才洞察」。

性能炸裂:相当于免费获得1.25倍算力

由于优化了层间信息流动,Kimi在相同硬件条件下实现了更高的有效算力输出。有分析师指出,这相当于「免费获得1.25倍算力」,对于大规模部署具有重大意义。

月之暗面最新进展

月之暗面已在2026年1月27日发布了万亿参数的MoE模型Kimi K2.5,并预计在2026年3月发布更强大的Kimi K3模型。此外,Kimi Linear模型通过混合线性注意力机制,显著提升了长文本处理的效率和速度。

相关文章

AI世纪诉讼开打:马斯克1300亿索赔直指OpenAI商业化原罪
OpenClaw v2026.4.27 更新发布
OpenClaw v2026.4.26 更新发布
小米模型MIMO 百亿Token激励计划
OpenClaw v2026.4.25 更新发布
20亿美元,买的不是代码,是中国养出来的用户