多轮交互 长期上下文处理 代理性能评估 状态跟踪 规划
摘要

大型语言模型在许多孤立任务中表现良好,但在需要计划、状态跟踪和长上下文处理等技能的多轮、长期代理问题上仍面临挑战。本文旨在更好地理解这些基础能力对完成此类任务的重要性。我们开发了一个用于多轮问题的反事实框架,通过假设代理能够利用完美执行特定任务的“神谕”来评估其性能变化,从而衡量该技能在未来AI代理发展中的关键性。我们引入了一套程序生成的、类似游戏的任务,具有可调节的复杂度。这些受控环境允许我们进行精确的“神谕”干预,如完美的规划或无瑕疵的状态跟踪,并使我们能够隔离每个“神谕”的贡献,避免现实基准中存在的混淆因素。实验结果表明,虽然某些干预(如规划)在不同场景下都能提高性能,但其他技能的效用取决于环境属性和语言模型的特点。本研究揭示了多轮代理环境的挑战,为未来AI代理和语言模型的发展提供指导。

AI 推荐理由

论文涉及多轮交互代理中的长期上下文处理,与Agent Memory相关但非唯一主题。

论文信息
作者 Amin Rakhsha, Thomas Hehn, Pietro Mazzaglia, Fabio Valerio Massoli, Arash Behboodi et al.
发布日期 2026-01-23
arXiv ID 2601.16649
相关性评分 7/10 (相关)