摘要
大型语言模型在长上下文推理中大部分计算成本用于注意力机制,但实证表明只有少量token对每个查询有实质贡献。本文通过将注意力建模为键向量凸包上的投影,并分析其熵(softmax-like)松弛形式,形式化了这一现象。主要理论贡献是面稳定性定理,证明在严格互补性边距(由KKT乘子认证的支持间隙Δ)下,熵注意力集中在常数大小的活跃面上,非活跃token的总质量呈指数衰减,而活跃面的误差随温度/正则化参数线性增长。这为稀疏长上下文解码提供了安全准则,并提供了权衡准确率与计算资源的原则性方法。基于这些保证,本文引入了Vashista稀疏注意力,一种可直接替换的机制,通过分页式上下文选择策略维护每个查询的小候选集,兼容现代推理栈。在长上下文评估中,观察到稳定的常数大小有效支持、显著的时钟速度提升以及在支持间隙诊断预测范围内的质量损失最小。最后,讨论了隐私敏感和隔离环境下的部署影响,其中可互换的注意力模块可在无外部检索依赖的情况下实现可预测的延迟和成本。
AI 推荐理由
论文探讨了长上下文中的注意力机制优化,与Agent Memory中高效处理上下文信息相关。
论文信息