Benchmark Multi-domain Agents Task Planning
摘要

针对现有基准在任务复杂度、真实性和领域多样性上的局限,本文提出 T1-Bench,一个用于评估真实客户-facing 多域环境中智能体系统的高保真综合基准。该基准包含交错场景,要求在多轮交互中进行结构化推理,显著提升了组合复杂度和评估严谨性,涵盖 25 个不同难度的领域。研究评估了 12 种模型,结合自动评估与人工判断,旨在推动多步复杂环境下智能体行为、工具利用及对话质量的标准化评估。

AI 推荐理由

论文聚焦多步任务规划与跨域协调能力的评估,是基准测试的核心维度。

研究机构
AI Foundations, Capital One
论文信息
作者 Genta Indra Winata, Amartya Chakraborty, Yuzhen Lin, Swasthi P Rao, Shikhhar Siingh et al.
发布日期 2026-06-09
arXiv ID 2606.11070
相关性评分 8/10 (高度相关)