月之暗面发布《Attention Residuals》技术报告,提出用注意力机制替代Transformer中固定的残差连接。该技术在Kimi Linear 48B模型上可等效多用25%算力,推理延迟增加不到2%。
Elon Musk在X平台发文“Impressive work from Kimi”表示赞赏,月之暗面官方回应“你的火箭造得也不错!”。
论文的联合一作之一陈广宇(Nathan)年仅17岁,目前仍在读高中。其领英主页显示,他就读于惠州贝赛思国际学校。论文另两位联合一作为RoPE提出者苏剑林,以及Kimi Linear第一作者张宇。
陈广宇于2025年11月加入月之暗面,他本人回应称,这篇需要算法与基础设施协同设计、兼具实验与理论的论文是团队共同努力的成果。