2026年,中国AI初创公司月之暗面(Moonshot AI)推出的Kimi Transformer模型系列,在Transformer架构的底层研究上取得了显著突破,特别是其名为「Attention Residuals」的研究成果。此项突破解决了Transformer架构中十年未决的残差连接和预归一化稀释问题。
十年禁区的突破
Kimi团队发现自2015年ResNet论文提出的残差连接公式被所有主流大型语言模型沿用至今,但存在缺陷——导致深层贡献被稀释以及有效深度受限等问题。
Kimi的「Attention Residuals」研究通过引入注意力机制来决定哪些层的信息更重要,而非像传统方法那样平等对待每一层,从而提高了计算效率和模型性能。
谷歌大V高度评价
这一进展获得了谷歌高级AI产品经理Shubham Saboo的高度评价,他表示:「Kimi触及了十年间无人敢碰的禁区!」这一评价在AI圈引发热议,有网友称这是「天才洞察」。
性能炸裂:相当于免费获得1.25倍算力
由于优化了层间信息流动,Kimi在相同硬件条件下实现了更高的有效算力输出。有分析师指出,这相当于「免费获得1.25倍算力」,对于大规模部署具有重大意义。
月之暗面最新进展
月之暗面已在2026年1月27日发布了万亿参数的MoE模型Kimi K2.5,并预计在2026年3月发布更强大的Kimi K3模型。此外,Kimi Linear模型通过混合线性注意力机制,显著提升了长文本处理的效率和速度。