注意力机制 混合模型 线性注意力 Agent Memory 序列建模
摘要

Softmax变压器在长上下文场景中的二次计算复杂度已成为瓶颈。相比之下,线性注意力模型家族为更高效的序列模型提供了有前途的方向。这些线性注意力模型将过去的KV值压缩到一个隐藏状态中,从而在训练和推理过程中高效地降低复杂度。然而,它们的表现力仍受限于隐藏状态的大小。先前的工作提出通过交错softmax和线性注意力层来减少计算复杂度同时保持表现力。然而,这些模型的效率仍然受到softmax注意力层的限制。本文提出了Neural Attention Search Linear(NAtS-L),一种框架,在同一层内对不同标记应用线性注意力和softmax注意力操作。NAtS-L自动确定某个标记是否可以由线性注意力模型处理,即仅具有短期影响并可编码为固定大小隐藏状态的标记,或需要softmax注意力处理,即包含与长期检索相关的信息并需保留以供未来查询的标记。通过在标记间搜索最优的Gated DeltaNet和softmax注意力组合,我们表明NAtS-L提供了一种强大而高效的标记级混合架构。

AI 推荐理由

论文探讨了混合注意力机制,涉及对记忆状态的处理和选择性编码,与Agent Memory相关。

论文信息
作者 Difan Deng, Andreas Bentzen Winje, Lukas Fehring, Marius Lindauer
发布日期 2026-02-03
arXiv ID 2602.03681
相关性评分 7/10 (相关)