MyPCBench：面向个人智能电脑使用代理的基准测试

Agent Benchmark Computer Use Personalization Tool Use

摘要

现有电脑使用代理基准多在非个性化环境中评估模型，导致与实际部署存在差距。本文提出 MyPCBench，在包含 17 个模拟真实 Web 应用的 Linux 桌面环境中，以特定人物背景测试代理作为个人助手的能力。该基准定义了 184 项源自真实请求的任务，评估了六个主流模型。结果显示，最佳模型仅解决 55.4% 的任务，失败主要集中在跨应用长轨迹任务，凸显了个性化场景对代理技能的挑战。

AI 推荐理由

论文评估 Agent 在复杂个人环境中的工具使用与任务执行能力，核心聚焦技能应用。

研究机构

Carnegie Mellon University

论文信息

作者 Lawrence Keunho Jang, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov

发布日期 2026-06-15

arXiv ID 2606.16748