摘要
Softmax变压器在长上下文场景中的二次计算复杂度已成为瓶颈。相比之下,线性注意力模型家族为更高效的序列模型提供了有前途的方向。这些线性注意力模型将过去的KV值压缩到一个隐藏状态中,从而在训练和推理过程中高效地降低复杂度。然而,它们的表现力仍受限于隐藏状态的大小。先前的工作提出通过交错softmax和线性注意力层来减少计算复杂度同时保持表现力。然而,这些模型的效率仍然受到softmax注意力层的限制。本文提出了Neural Attention Search Linear(NAtS-L),一种框架,在同一层内对不同标记应用线性注意力和softmax注意力操作。NAtS-L自动确定某个标记是否可以由线性注意力模型处理,即仅具有短期影响并可编码为固定大小隐藏状态的标记,或需要softmax注意力处理,即包含与长期检索相关的信息并需保留以供未来查询的标记。通过在标记间搜索最优的Gated DeltaNet和softmax注意力组合,我们表明NAtS-L提供了一种强大而高效的标记级混合架构。
AI 推荐理由
论文探讨了混合注意力机制,涉及对记忆状态的处理和选择性编码,与Agent Memory相关。
论文信息