Agent Benchmark Computer Use Personalization Tool Use
摘要

现有电脑使用代理基准多在非个性化环境中评估模型,导致与实际部署存在差距。本文提出 MyPCBench,在包含 17 个模拟真实 Web 应用的 Linux 桌面环境中,以特定人物背景测试代理作为个人助手的能力。该基准定义了 184 项源自真实请求的任务,评估了六个主流模型。结果显示,最佳模型仅解决 55.4% 的任务,失败主要集中在跨应用长轨迹任务,凸显了个性化场景对代理技能的挑战。

AI 推荐理由

论文评估 Agent 在复杂个人环境中的工具使用与任务执行能力,核心聚焦技能应用。

研究机构
Carnegie Mellon University
论文信息
作者 Lawrence Keunho Jang, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov
发布日期 2026-06-15
arXiv ID 2606.16748
相关性评分 8/10 (高度相关)