摘要
长上下文语言模型中注意力机制的计算负担促使了两种独立的研究方向:通过关注选定标记来减少复杂度的稀疏注意力机制,以及通过改进训练稳定性并缓解注意力下沉现象的门控注意力变体。本文观察到这两种方法分别解决了互补的弱点,并提出了一种名为门控稀疏注意力(GSA)的架构,融合了两者的优点。GSA引入了带有sigmoid激活函数的门控闪电索引器,生成有界且可解释的选择分数;一个自适应稀疏性控制器,根据局部不确定性调节所关注的标记数量;以及在值和输出阶段的双重门控机制。本文建立了该方法的理论基础,包括复杂度分析、表达能力结果和收敛保证。在使用400B标记训练的1.7B参数模型实验中,GSA在保持稀疏注意力基线效率的同时(在128K上下文中实现12-16倍加速),还实现了门控注意力的质量提升:困惑度从6.03降至5.70,RULER评分在128K上下文中几乎翻倍,对第一个标记的注意力(作为注意力下沉的代理指标)从47%下降至低于4%。训练稳定性显著提高,损失峰值减少了98%。
AI 推荐理由
论文涉及注意力机制优化,与Agent Memory中的上下文处理相关,但非核心主题。
论文信息