摘要
现有电脑使用代理基准多在非个性化环境中评估模型,导致与实际部署存在差距。本文提出 MyPCBench,在包含 17 个模拟真实 Web 应用的 Linux 桌面环境中,以特定人物背景测试代理作为个人助手的能力。该基准定义了 184 项源自真实请求的任务,评估了六个主流模型。结果显示,最佳模型仅解决 55.4% 的任务,失败主要集中在跨应用长轨迹任务,凸显了个性化场景对代理技能的挑战。
AI 推荐理由
论文评估 Agent 在复杂个人环境中的工具使用与任务执行能力,核心聚焦技能应用。
研究机构
Carnegie Mellon University
论文信息