KV缓存 注意力优化 Transformer推理加速 稀疏注意力
摘要

本文提出QUOKA:一种面向查询的键值选择方法,用于在分块预填充下加速Transformer推理。该方法是一种无需训练且与硬件无关的稀疏注意力算法。我们观察到,与平均查询余弦相似度较低的查询在注意力操作中与更多键交互,并对最终注意力logits有较大贡献。通过优先处理这些查询,可以在预填充阶段近似完整注意力行为。QUOKA通过(1)首先保留一小部分代表性查询,以及(2)随后选择与这些查询最匹配的键,从而加速注意力计算。实验表明,在Needle-In-A-Haystack、LongBench、RULER和Math500数据集上,QUOKA实现了时间到第一个token减少3倍、Nvidia GPU上注意力加速5倍、Intel Xeon CPU上接近7倍的加速,同时保持接近基线的准确性,每次注意力评估使用的键值对减少了88%。

AI 推荐理由

论文涉及KV缓存选择,与Agent Memory相关,但主要聚焦于推理加速而非记忆机制本身。

论文信息
作者 Dalton Jones, Junyoung Park, Matthew Morse, Mingu Lee, Chris Lott et al.
发布日期 2026-02-09
arXiv ID 2602.08722
相关性评分 6/10 (相关)