iOSWorld：面向个人智能手机代理的基准测试

Mobile Agents Benchmark Personalization Long-term Memory

摘要

实用的手机代理需具备个人智能，能基于设备上的用户身份、历史及偏好进行推理，而非仅在隔离沙盒中执行指令。针对现有移动代理基准缺乏个性化支持的现状，本文提出 iOSWorld，这是首个围绕持久用户身份构建的交互式原生 iOS 模拟器基准，涵盖 26 个新建应用及交易、消息等关联数据。该基准包含 133 项任务，重点测试跨应用协作及基于个人数据的模式推断能力。实验评估了前沿模型在不同设置下的表现，揭示了多应用任务中的性能瓶颈及辅助信息对小模型的局限性。

AI 推荐理由

论文核心在于评估 Agent 利用用户历史、身份等持久化数据进行个性化推理的能力，直接对应记忆机制。

研究机构

Carnegie Mellon University

论文信息

作者 Lawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh et al.

发布日期 2026-06-08

arXiv ID 2606.09764