摘要
大语言模型在多轮代理场景中易将自身先前响应误作少样本示例进行模仿,产生“对话惯性”。本文通过注意力分析揭示该现象源于对前序响应的强对角注意力,限制了探索能力。针对长上下文加剧惯性的矛盾,作者提出上下文偏好学习,利用相同状态下长短上下文生成动作的差异构建偏好对,校准模型以偏好低惯性响应。此外,还提供了推理时的上下文管理策略以平衡探索与利用,实验证明该方法有效降低了惯性并提升了性能。
AI 推荐理由
论文核心研究对话历史(记忆)导致的惯性问题及上下文管理策略,直接针对记忆机制。
研究机构
中国科学院
论文信息