T1-Bench：真实世界领域中多场景智能体的基准测试

Benchmark Multi-domain Agents Task Planning

摘要

针对现有基准在任务复杂度、真实性和领域多样性上的局限，本文提出 T1-Bench，一个用于评估真实客户-facing 多域环境中智能体系统的高保真综合基准。该基准包含交错场景，要求在多轮交互中进行结构化推理，显著提升了组合复杂度和评估严谨性，涵盖 25 个不同难度的领域。研究评估了 12 种模型，结合自动评估与人工判断，旨在推动多步复杂环境下智能体行为、工具利用及对话质量的标准化评估。

AI 推荐理由

论文聚焦多步任务规划与跨域协调能力的评估，是基准测试的核心维度。

研究机构

AI Foundations, Capital One

论文信息

作者 Genta Indra Winata, Amartya Chakraborty, Yuzhen Lin, Swasthi P Rao, Shikhhar Siingh et al.

发布日期 2026-06-09

arXiv ID 2606.11070