TRIP-Bench：真实场景下长程交互式智能体基准测试

Long-Horizon Planning Benchmark Reinforcement Learning Multi-tool Agent

摘要

针对现有基准在长程交互中难以评估全局约束、多工具协同及动态适应性的问题，本文提出 TRIP-Bench。该基准基于真实旅行规划场景，包含 18 种工具和 40 多项需求，支持长达 15 轮对话及超 20 万 token 上下文的自动化评估。实验显示先进模型在困难子集上成功率不足 10%。此外，本文提出 GTPO，一种在线多轮强化学习方法，通过专用奖励归一化与差分机制，显著提升了模型在长程任务中的约束满足能力与交互鲁棒性。

AI 推荐理由

论文聚焦长程交互中的任务规划、多步计划生成及全局约束满足，核心解决规划难题。

研究机构

中国科学院自动化研究所

论文信息

作者 Yuanzhe Shen, Zisu Huang, Zhengyuan Wang, Muzhao Tian, Zhengkang Guo et al.

发布日期 2026-02-02

arXiv ID 2602.01675