Office Automation Agent Benchmark Long-horizon Planning NCRE
摘要

随着大语言模型代理在计算机自动化领域的部署加速,其驾驭复杂专业级生产力软件的能力尚未经过充分测试。本文认为办公自动化是基准测试文档自动化能力的理想环境,因其需要长程规划与推理、精确的参数配置及多应用集成。为此,我们基于中国全国计算机等级考试(NCRE)构建了评估体系,涵盖 Word、Excel 和 PowerPoint 的 200 项综合实操任务。实验结果显示,单轮模型最高得分率仅为 36.6%;而具备执行反馈、迭代修复及更广泛办公自动化访问权限的强代理系统得分率为 68.8%,仍远低于作为评分 sanity check 的社区参考分 95.5%。研究表明,尽管代码生成技术近期有所进步,但实现可靠的细粒度办公文档自动化对当前系统而言仍是重大挑战。

AI 推荐理由

论文明确指出办公自动化需要长程规划,并评估了具备迭代修复能力的代理系统在复杂任务中的表现。

研究机构
Microsoft Research
论文信息
作者 Tengchao Lv, Dongdong Zhang, Jiayu Ding, Yilin Jia, Yuzhong Zhao et al.
发布日期 2026-06-09
arXiv ID 2606.10956
相关性评分 8/10 (高度相关)