十年禁区的突破
Kimi团队发现自2015年ResNet论文提出的残差连接公式被所有主流大型语言模型沿用至今,但存在缺陷——导致深层贡献被稀释以及有效深度受限等问题。
Kimi的「Attention Residuals」研究通过引入注意力机制来决定哪些层的信息更重要,而非像传统方法那样平等对待每一层,从而提高了计算效率和模型性能。
谷歌大V高度评价
这一进展获得了谷歌高级AI产品经理Shubham Saboo的高度评价,他表示:「Kimi触及了十年间无人敢碰的禁区!」这一评价在AI圈引发热议,有网友称这是「天才洞察」。
性能炸裂:相当于免费获得1.25倍算力
由于优化了层间信息流动,Kimi在相同硬件条件下实现了更高的有效算力输出。有分析师指出,这相当于「免费获得1.25倍算力」,对于大规模部署具有重大意义。
月之暗面最新进展
月之暗面已在2026年1月27日发布了万亿参数的MoE模型Kimi K2.5,并预计在2026年3月发布更强大的Kimi K3模型。此外,Kimi Linear模型通过混合线性注意力机制,显著提升了长文本处理的效率和速度。