CompilerKV：通过离线经验编译实现风险自适应的KV压缩

KV压缩 Agent Memory 注意力机制风险自适应离线经验编译

摘要

在长上下文场景下，大语言模型（LLMs）受到Key-Value（KV）缓存内存线性增长的严重限制。现有KV压缩方法依赖静态阈值和注意力启发式规则，或粗粒度的内存预算分配，在严格内存预算下忽视了两个关键因素：与提示相关的压缩风险变化以及不同注意力头的功能异质性，这导致了标记选择不稳定并引发尾部失败。为解决这些问题，本文提出CompilerKV，一种风险自适应且关注注意力头差异的压缩框架，通过将离线经验编译为可重用的决策表，仅用于预填充部署。CompilerKV整合了两个关键协同组件：(i) 通过离线上下文老虎机学习得到的注意力头异质性表，为每个注意力头分配特定可靠性权重以显式控制功能差异；(ii) 风险自适应阈值门控机制，联合建模注意力熵和局部困惑度，将提示级别的风险转化为可部署的保留阈值。LongBench实验表明，在512-token预算下，CompilerKV优于现有最先进方法，恢复了97.7%的FullKV性能，并比最强竞争者提升了高达5.2分。

AI 推荐理由

论文聚焦KV缓存压缩，直接针对LLM中Memory管理的核心问题，提出风险自适应机制。

论文信息

作者 Ning Yang, Chengzhi Wang, Yibo Liu, Baoliang Tian, Haijun Zhang

发布日期 2026-02-09

arXiv ID 2602.08686