摘要
随着大语言模型代理在计算机自动化领域的部署加速,其驾驭复杂专业级生产力软件的能力尚未经过充分测试。本文认为办公自动化是基准测试文档自动化能力的理想环境,因其需要长程规划与推理、精确的参数配置及多应用集成。为此,我们基于中国全国计算机等级考试(NCRE)构建了评估体系,涵盖 Word、Excel 和 PowerPoint 的 200 项综合实操任务。实验结果显示,单轮模型最高得分率仅为 36.6%;而具备执行反馈、迭代修复及更广泛办公自动化访问权限的强代理系统得分率为 68.8%,仍远低于作为评分 sanity check 的社区参考分 95.5%。研究表明,尽管代码生成技术近期有所进步,但实现可靠的细粒度办公文档自动化对当前系统而言仍是重大挑战。
AI 推荐理由
论文明确指出办公自动化需要长程规划,并评估了具备迭代修复能力的代理系统在复杂任务中的表现。
研究机构
Microsoft Research
论文信息