摘要
注意力机制的二次复杂度是处理长上下文的大语言模型的关键瓶颈。尽管动态稀疏注意力方法提供了输入自适应的效率,但它们面临根本性的权衡:需要预处理、缺乏全局评估、违反查询独立性或导致高计算开销。我们提出了RRAttention,一种新颖的动态稀疏注意力方法,通过每头轮询(RR)采样策略同时实现所有理想特性。通过在每个步长内跨注意力头旋转查询采样位置,RRAttention在保持查询独立性的同时,通过步长级聚合实现高效的全局模式发现。我们的方法将复杂度从$O(L^2)$降低到$O(L^2/S^2)$,并采用自适应Top-$τ$选择以达到最佳稀疏性。在自然语言理解(HELMET)和多模态视频理解(Video-MME)上的大量实验表明,RRAttention在仅计算一半注意力块的情况下恢复了超过99%的完整注意力性能,在128K上下文长度下实现了2.4倍的加速,并优于现有的动态稀疏注意力方法。
AI 推荐理由
论文涉及注意力机制优化,与长上下文处理相关,但未直接研究Agent Memory机制。
论文信息