摘要
针对现有基准在任务复杂度、真实性和领域多样性上的局限,本文提出 T1-Bench,一个用于评估真实客户-facing 多域环境中智能体系统的高保真综合基准。该基准包含交错场景,要求在多轮交互中进行结构化推理,显著提升了组合复杂度和评估严谨性,涵盖 25 个不同难度的领域。研究评估了 12 种模型,结合自动评估与人工判断,旨在推动多步复杂环境下智能体行为、工具利用及对话质量的标准化评估。
AI 推荐理由
论文聚焦多步任务规划与跨域协调能力的评估,是基准测试的核心维度。
研究机构
AI Foundations, Capital One
论文信息