摘要
针对现有基准在长程交互中难以评估全局约束、多工具协同及动态适应性的问题,本文提出 TRIP-Bench。该基准基于真实旅行规划场景,包含 18 种工具和 40 多项需求,支持长达 15 轮对话及超 20 万 token 上下文的自动化评估。实验显示先进模型在困难子集上成功率不足 10%。此外,本文提出 GTPO,一种在线多轮强化学习方法,通过专用奖励归一化与差分机制,显著提升了模型在长程任务中的约束满足能力与交互鲁棒性。
AI 推荐理由
论文聚焦长程交互中的任务规划、多步计划生成及全局约束满足,核心解决规划难题。
研究机构
中国科学院自动化研究所
论文信息