摘要
尽管智能体评估已转向长期任务,但大多数基准仍强调局部步骤推理,而非需要真正规划能力的全局约束优化(如时间和财务预算)。同时,现有LLM规划基准未能充分代表现实场景中常见的主动信息收集和细粒度局部约束。为解决这一问题,我们引入了DeepPlanning,一个具有挑战性的实际长期智能体规划基准。它包含多日旅行规划和多产品购物任务,要求主动信息获取、局部约束推理和全局约束优化。在DeepPlanning上的评估表明,即使是最先进的智能体LLM也难以应对这些问题,突显了可靠显式推理模式和并行工具使用对于实现更好的效果-效率权衡的重要性。错误分析进一步指出了改进长期规划中智能体LLM的有希望方向。我们开源代码和数据以支持未来研究。
AI 推荐理由
论文涉及长期规划与约束优化,隐含对记忆机制的需求,但未直接研究记忆系统。
论文信息