注意差距：前沿大语言模型能通过标准化办公软件 proficiency 考试吗？

Office Automation Agent Benchmark Long-horizon Planning NCRE

摘要

随着大语言模型代理在计算机自动化领域的部署加速，其驾驭复杂专业级生产力软件的能力尚未经过充分测试。本文认为办公自动化是基准测试文档自动化能力的理想环境，因其需要长程规划与推理、精确的参数配置及多应用集成。为此，我们基于中国全国计算机等级考试（NCRE）构建了评估体系，涵盖 Word、Excel 和 PowerPoint 的 200 项综合实操任务。实验结果显示，单轮模型最高得分率仅为 36.6%；而具备执行反馈、迭代修复及更广泛办公自动化访问权限的强代理系统得分率为 68.8%，仍远低于作为评分 sanity check 的社区参考分 95.5%。研究表明，尽管代码生成技术近期有所进步，但实现可靠的细粒度办公文档自动化对当前系统而言仍是重大挑战。

AI 推荐理由

论文明确指出办公自动化需要长程规划，并评估了具备迭代修复能力的代理系统在复杂任务中的表现。

研究机构

Microsoft Research

论文信息

作者 Tengchao Lv, Dongdong Zhang, Jiayu Ding, Yilin Jia, Yuzhong Zhao et al.

发布日期 2026-06-09

arXiv ID 2606.10956