登录之后可以开启更多功能哦
月之暗面发布《Attention Residuals》技术报告,提出用注意力机制替代Transformer中固定的残差连接。该技术在Kimi Linear 48B模型上可等效多用25%算力,推理延迟增