摘要
通过提示提供广泛上下文对于利用大语言模型(LLMs)的能力至关重要。然而,长上下文显著增加了推理延迟,因为自注意力计算成本随序列长度呈二次增长。为缓解此问题,上下文压缩——特别是软提示压缩——已成为广泛研究的解决方案,其通过训练好的压缩器将长上下文转换为较短的记忆嵌入。现有方法通常不加区分地将整个上下文压缩为一组记忆标记,要求压缩器捕捉全局依赖关系,并需要大量预训练数据以学习有效的模式。受人类工作记忆中的分块机制以及记忆嵌入相对于原始标记的空间特化性的启发,我们提出并行迭代压缩(PIC)。通过简单修改Transformer的注意力掩码,PIC明确限制记忆标记的感受野至顺序局部块,从而降低压缩器训练难度。在多个下游任务上的实验表明,PIC始终优于竞争基线,在高压缩场景下表现尤为突出(例如在64倍压缩比下,问答任务的F1分数和EM分数分别提高了29.8%和40.7%)。此外,PIC显著加快了训练过程。具体而言,在训练16倍压缩器时,它超越了竞争基线的峰值性能,同时将训练时间减少了约40%。
AI 推荐理由
论文涉及基于记忆压缩的上下文处理,与Agent Memory相关但非唯一主题。
论文信息