摘要
大型语言模型在提供适当示例时表现出优秀的少样本学习能力,但在多轮代理场景中,这种优势却导致模型错误地模仿其先前响应作为少样本示例。通过注意力分析,我们识别出会话惯性现象,即模型对先前响应表现出强烈的对角线注意力,这与限制探索的模仿偏差相关。这揭示了将少样本LLM转化为代理时的矛盾:更长的上下文可以丰富环境反馈以用于利用,但也加剧了会话惯性,从而削弱探索。我们的关键见解是,对于相同的状态,使用更长上下文生成的动作表现出更强的惯性,这使得可以在没有环境奖励的情况下构建偏好对。基于此,我们提出上下文偏好学习方法,校准模型偏好以优先选择低惯性响应。此外,我们在推理时提供了上下文管理策略,以平衡探索与利用。实验结果表明,我们的框架在八个代理环境中和一个深度研究场景中有效减少了会话惯性并提升了性能。
AI 推荐理由
论文探讨了多轮对话中模型对历史响应的注意力偏差(即会话惯性),与Agent Memory中的探索与利用平衡密切相关。
论文信息