摘要
近年来 AI 智能体在处理复杂现实任务方面进展迅速,但现有基准极少评估其操作图形界面以完成跨领域长程高价值专业工作流的能力。当前 GUI 基准多关注通用软件及短程任务。为此,本文提出 Workflow-GYM,一个专注于专业领域和专用软件环境的长程 GUI 任务基准。实验表明,即使最强模型成功率仅略超 30%,主要受限于长程一致性维持、阶段遗漏、错误传播及目标漂移。该研究揭示了当前系统的局限性并指明了未来方向。
AI 推荐理由
论文聚焦长程任务规划中的阶段遗漏、目标漂移等问题,是评估规划能力的关键研究。
研究机构
ByteDance Seed
Humanlaya
论文信息