摘要
在长上下文场景下,大语言模型(LLMs)受到Key-Value(KV)缓存内存线性增长的严重限制。现有KV压缩方法依赖静态阈值和注意力启发式规则,或粗粒度的内存预算分配,在严格内存预算下忽视了两个关键因素:与提示相关的压缩风险变化以及不同注意力头的功能异质性,这导致了标记选择不稳定并引发尾部失败。为解决这些问题,本文提出CompilerKV,一种风险自适应且关注注意力头差异的压缩框架,通过将离线经验编译为可重用的决策表,仅用于预填充部署。CompilerKV整合了两个关键协同组件:(i) 通过离线上下文老虎机学习得到的注意力头异质性表,为每个注意力头分配特定可靠性权重以显式控制功能差异;(ii) 风险自适应阈值门控机制,联合建模注意力熵和局部困惑度,将提示级别的风险转化为可部署的保留阈值。LongBench实验表明,在512-token预算下,CompilerKV优于现有最先进方法,恢复了97.7%的FullKV性能,并比最强竞争者提升了高达5.2分。
AI 推荐理由
论文聚焦KV缓存压缩,直接针对LLM中Memory管理的核心问题,提出风险自适应机制。
论文信息