苹果机器学习研究科学家 Shuangfei Zhai 提出了一种名为「排他自注意力」的新机制。
核心改动
- 标准自注意力:每个 token 在计算注意力时,会将自己的信息也纳入计算。
- 排他自注意力:强制排除自身位置的贡献,仅从上下文的其他 token 中提取信息。
设计理念
直觉上,一个 token 已经“知道”自己是什么,注意力机制的核心价值在于让它了解“周围有什么”。
实验结果
在高达 27 亿参数的模型规模内,该方法性能一致优于标准自注意力,且序列越长,优势越明显。
研究背景
Zhai 也是 Attention Free Transformer 的作者,持续致力于探索注意力机制的替代方案。