摘要
将大型语言模型(LLMs)个性化到特定用户需要整合大量的交互历史和用户资料,但由于输入令牌限制,这在实际中因高推理延迟和API成本而难以实现。现有方法依赖启发式策略,如选择近期交互或提示摘要模型压缩用户资料,但这些方法将上下文视为整体,未能考虑LLMs如何内部处理和优先化不同资料组件。本文研究LLMs的注意力模式是否能有效识别重要的个性化信号以进行智能上下文压缩。通过代表性个性化任务的初步研究,发现(a)LLMs的注意力模式自然揭示重要信号,(b)微调增强了LLMs区分相关信息与无关信息的能力。基于这些发现,本文提出Attn-GS框架,利用标记模型的注意力反馈来标记重要的个性化句子,然后指导压缩模型生成任务相关且高质量的压缩用户上下文。大量实验表明,Attn-GS在不同任务、令牌限制和设置下显著优于各种基线方法,在保持接近完整上下文性能的同时,将令牌使用量减少了50倍。
AI 推荐理由
论文核心研究基于LLM注意力机制的上下文压缩,直接关联Agent Memory的优化与实现。
论文信息