摘要
大型语言模型(LLMs)在长上下文推理中面临高昂的成本,主要由于二次注意力计算和键值缓存的增长,这促使了上下文压缩的研究。本文研究了软上下文压缩方法,其中长上下文被压缩为一组连续表示。现有方法通常将LLM本身重新用作可训练的压缩器,依赖逐层自注意力来迭代聚合信息。我们认为这种范式存在两个结构性限制:(i) 跨层的渐进表示覆盖;(ii) 压缩容量在不同token之间的分配不协调。我们提出了ComprExIT(通过显式信息传输进行上下文压缩),一种轻量级框架,将软压缩转化为新的范式:在冻结的LLM隐藏状态上进行显式信息传输。这将压缩与模型内部的自注意力动态解耦。ComprExIT执行(i) 深度方向传输,选择性地将多层信息传输到token锚点,缓解渐进覆盖;(ii) 宽度方向传输,通过全局优化的传输计划将锚点聚合到少量槽位中,确保信息分配的协调性。在六个问答基准测试中,ComprExIT始终优于最先进的上下文压缩方法,仅引入约1%的额外参数,证明显式且协调的信息传输能够实现更有效和鲁棒的长上下文压缩。
AI 推荐理由
论文直接针对LLM的上下文压缩问题,提出了一种显式信息传输机制,属于Agent Memory的核心研究。
论文信息