摘要
针对现有基准将图形界面、命令行及代码编辑等能力割裂评估的不足,本文提出 WeaveBench。这是一个包含 114 个任务的长程混合接口基准,涵盖 8 个真实工作领域,要求智能体在单一轨迹中协同操作 GUI 与 CLI/代码。研究引入了感知轨迹的评判机制以检测捷径行为。实验表明,当前最先进模型的通过率仅为 41.2%,且仅基于结果的评估会显著高估性能。该基准揭示了计算机使用代理在长程多步任务规划与编排上的关键差距。
AI 推荐理由
论文聚焦长程任务中跨界面操作的编排与规划,是评估 Agent 规划能力的关键基准。
研究机构
浙江大学
微软亚洲研究院
清华大学
论文信息