神经注意搜索线性：迈向自适应的标记级混合注意模型

注意力机制混合模型线性注意力 Agent Memory 序列建模

摘要

Softmax变压器在长上下文场景中的二次计算复杂度已成为瓶颈。相比之下，线性注意力模型家族为更高效的序列模型提供了有前途的方向。这些线性注意力模型将过去的KV值压缩到一个隐藏状态中，从而在训练和推理过程中高效地降低复杂度。然而，它们的表现力仍受限于隐藏状态的大小。先前的工作提出通过交错softmax和线性注意力层来减少计算复杂度同时保持表现力。然而，这些模型的效率仍然受到softmax注意力层的限制。本文提出了Neural Attention Search Linear（NAtS-L），一种框架，在同一层内对不同标记应用线性注意力和softmax注意力操作。NAtS-L自动确定某个标记是否可以由线性注意力模型处理，即仅具有短期影响并可编码为固定大小隐藏状态的标记，或需要softmax注意力处理，即包含与长期检索相关的信息并需保留以供未来查询的标记。通过在标记间搜索最优的Gated DeltaNet和softmax注意力组合，我们表明NAtS-L提供了一种强大而高效的标记级混合架构。

AI 推荐理由

论文探讨了混合注意力机制，涉及对记忆状态的处理和选择性编码，与Agent Memory相关。

论文信息

作者 Difan Deng, Andreas Bentzen Winje, Lukas Fehring, Marius Lindauer

发布日期 2026-02-03

arXiv ID 2602.03681