摘要
随着大型语言模型(LLMs)的快速发展,自主代理在复杂环境中的导航能力得到了显著提升。然而,现有评估主要采用演绎范式,即代理基于明确提供的规则和静态目标执行任务,通常具有有限的规划范围。这忽视了代理从经验中自主发现潜在转移规律的归纳必要性,而这是实现代理前瞻性思维和保持战略一致性的关键。为弥补这一差距,我们引入了OdysseyArena,将代理评估重新聚焦于长时程、主动和归纳交互。我们形式化并实例化了四个基本元素,将抽象的转移动态转化为具体的交互环境。在此基础上,我们建立了OdysseyArena-Lite以进行标准化基准测试,提供120个任务来衡量代理的归纳效率和长时程发现能力。进一步地,我们引入了OdysseyArena-Challenge,以极端交互范围(例如>200步)对代理稳定性进行压力测试。对15多个领先LLM的广泛实验表明,即使是最先进的模型在归纳场景中也存在不足,揭示了在复杂环境中实现自主发现的关键瓶颈。
AI 推荐理由
论文涉及长期交互与归纳学习,隐含对Agent Memory的需求,但未直接研究记忆机制。
论文信息