Transformer祖制被Kimi突破!谷歌大V高赞:触碰了十年没人敢碰的禁区

2026-03-17 6 0

2026年,中国AI初创公司月之暗面(Moonshot AI)推出的Kimi Transformer模型系列,在Transformer架构的底层研究上取得了显著突破,特别是其名为「Attention Residuals」的研究成果。此项突破解决了Transformer架构中十年未决的残差连接和预归一化稀释问题。

十年禁区的突破

Kimi团队发现自2015年ResNet论文提出的残差连接公式被所有主流大型语言模型沿用至今,但存在缺陷——导致深层贡献被稀释以及有效深度受限等问题。

Kimi的「Attention Residuals」研究通过引入注意力机制来决定哪些层的信息更重要,而非像传统方法那样平等对待每一层,从而提高了计算效率和模型性能。

谷歌大V高度评价

这一进展获得了谷歌高级AI产品经理Shubham Saboo的高度评价,他表示:「Kimi触及了十年间无人敢碰的禁区!」这一评价在AI圈引发热议,有网友称这是「天才洞察」。

性能炸裂:相当于免费获得1.25倍算力

由于优化了层间信息流动,Kimi在相同硬件条件下实现了更高的有效算力输出。有分析师指出,这相当于「免费获得1.25倍算力」,对于大规模部署具有重大意义。

月之暗面最新进展

月之暗面已在2026年1月27日发布了万亿参数的MoE模型Kimi K2.5,并预计在2026年3月发布更强大的Kimi K3模型。此外,Kimi Linear模型通过混合线性注意力机制,显著提升了长文本处理的效率和速度。

相关文章

黄仁勋:龙虾就是新操作系统!
腾讯元宝派正式支持接入OpenClaw
GPT-5.4 超越人类基准测试,AI 市场今年预计达 2.52 万亿美元
OpenAI 发布 GPT-5.4:能够与真实软件环境交互的下一代AI模型
2026年AI智能体爆发:40%企业应用将嵌入任务型AI智能体
苹果拟于WWDC2026发布代号Campo新版Siri,深度集成Gemini模型