摘要
KV缓存的线性内存增长是长上下文任务中LLM推理的重要瓶颈。现有静态压缩方法往往无法保留全局重要信息,主要因为它们忽略了注意力漂移现象,即标记的重要性随时间动态变化。尽管最近的动态检索方法试图解决这一问题,但通常受到粗粒度缓存策略的影响,并因频繁的数据传输而产生较高的I/O开销。为克服这些限制,我们提出HeteroCache,一种无需训练的动态压缩框架。我们的方法基于两个关键洞察:注意力头表现出不同的时间异质性,同一层内的头之间存在显著的空间冗余。根据这些洞察,HeteroCache根据稳定性和冗余性对头进行分类,随后应用细粒度加权策略,将较大的缓存预算分配给注意力快速变化的头以捕捉上下文变化,从而解决粗粒度策略的低效问题。此外,我们采用分层存储机制,其中一部分代表性头监控注意力变化,并触发从CPU的异步按需检索,有效隐藏I/O延迟。最后,实验表明,HeteroCache在多个长上下文基准测试中实现了最先进的性能,并在224K上下文中相比原始模型加速了高达3倍的解码速度。
AI 推荐理由
论文核心研究KV缓存压缩,直接涉及LLM推理中的内存管理机制。
论文信息