摘要
鉴于注意力机制的二次复杂度,KV缓存淘汰对于加速模型推理至关重要。当前的KV缓存淘汰方法通常依赖于瞬时启发式指标,隐含假设所有注意力头中得分大小是重要性的有效代理。然而,这种方法忽略了不同注意力头在预测准确性上的异质性。一些头优先考虑令牌的即时贡献,而另一些则专注于捕捉长期效用。本文提出,最优预算分配应由保留长期语义信息的边际效用来决定。基于这一洞察,我们提出了LU-KV框架,通过凸包松弛和基于边际效用的贪心求解器实现近似最优精度的头部级预算分配。此外,我们实现了一个数据驱动的离线分析协议以促进LU-KV的实际部署。在LongBench和RULER基准上的广泛评估表明,LU-KV在保持性能基本不变的情况下,将KV缓存大小减少了80%,同时降低了推理延迟和GPU内存占用。
AI 推荐理由
论文聚焦KV缓存淘汰策略,与Agent Memory中的缓存管理密切相关,但非唯一主题。
论文信息