Long-Horizon Planning Benchmark Reinforcement Learning Multi-tool Agent
摘要

针对现有基准在长程交互中难以评估全局约束、多工具协同及动态适应性的问题,本文提出 TRIP-Bench。该基准基于真实旅行规划场景,包含 18 种工具和 40 多项需求,支持长达 15 轮对话及超 20 万 token 上下文的自动化评估。实验显示先进模型在困难子集上成功率不足 10%。此外,本文提出 GTPO,一种在线多轮强化学习方法,通过专用奖励归一化与差分机制,显著提升了模型在长程任务中的约束满足能力与交互鲁棒性。

AI 推荐理由

论文聚焦长程交互中的任务规划、多步计划生成及全局约束满足,核心解决规划难题。

研究机构
中国科学院自动化研究所
论文信息
作者 Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo et al.
发布日期 2026-02-02
arXiv ID 2602.01675
相关性评分 9/10 (高度相关)