摘要
随着长上下文推理在大语言模型(LLMs)中变得至关重要,对不断增长的键值缓存进行注意力计算成为解码过程的主要瓶颈,这促使研究者采用稀疏注意力机制以实现可扩展的推理。现有的固定预算Top-k稀疏注意力方法无法适应不同头和层之间的异质性注意力分布,而Top-p稀疏注意力则直接保留注意力质量并提供更强的准确性保障。然而,现有Top-p方法未能同时优化Top-p精度、选择开销和稀疏注意力成本,限制了整体效率。本文提出Double-P,一种分层稀疏注意力框架,能够优化这三个阶段。Double-P首先在集群级别使用大小加权中心点进行粗粒度Top-p估计,然后通过第二阶段的Top-p自适应地分配仅需的标记级注意力。在长上下文基准测试中,Double-P始终实现接近零的精度下降,将注意力计算开销减少高达1.8倍,并在端到端解码速度上比最先进的固定预算稀疏注意力方法快1.3倍。
AI 推荐理由
论文涉及稀疏注意力机制以优化长上下文推理,与Agent Memory中的高效注意力管理相关。
论文信息