HeteroCache：一种用于长上下文LLM推理的异构KV缓存动态检索方法

KV缓存动态压缩长上下文推理注意力机制 I/O优化

摘要

KV缓存的线性内存增长是长上下文任务中LLM推理的重要瓶颈。现有静态压缩方法往往无法保留全局重要信息，主要因为它们忽略了注意力漂移现象，即标记的重要性随时间动态变化。尽管最近的动态检索方法试图解决这一问题，但通常受到粗粒度缓存策略的影响，并因频繁的数据传输而产生较高的I/O开销。为克服这些限制，我们提出HeteroCache，一种无需训练的动态压缩框架。我们的方法基于两个关键洞察：注意力头表现出不同的时间异质性，同一层内的头之间存在显著的空间冗余。根据这些洞察，HeteroCache根据稳定性和冗余性对头进行分类，随后应用细粒度加权策略，将较大的缓存预算分配给注意力快速变化的头以捕捉上下文变化，从而解决粗粒度策略的低效问题。此外，我们采用分层存储机制，其中一部分代表性头监控注意力变化，并触发从CPU的异步按需检索，有效隐藏I/O延迟。最后，实验表明，HeteroCache在多个长上下文基准测试中实现了最先进的性能，并在224K上下文中相比原始模型加速了高达3倍的解码速度。

AI 推荐理由

论文核心研究KV缓存压缩，直接涉及LLM推理中的内存管理机制。

论文信息

作者 Zhiyuan Shi, Qibo Qiu, Feng Xue, Zhonglin Jiang, Li Yu et al.

发布日期 2026-01-20

arXiv ID 2601.13684