Mobile Agents Benchmark Personalization Long-term Memory
摘要

实用的手机代理需具备个人智能,能基于设备上的用户身份、历史及偏好进行推理,而非仅在隔离沙盒中执行指令。针对现有移动代理基准缺乏个性化支持的现状,本文提出 iOSWorld,这是首个围绕持久用户身份构建的交互式原生 iOS 模拟器基准,涵盖 26 个新建应用及交易、消息等关联数据。该基准包含 133 项任务,重点测试跨应用协作及基于个人数据的模式推断能力。实验评估了前沿模型在不同设置下的表现,揭示了多应用任务中的性能瓶颈及辅助信息对小模型的局限性。

AI 推荐理由

论文核心在于评估 Agent 利用用户历史、身份等持久化数据进行个性化推理的能力,直接对应记忆机制。

研究机构
Carnegie Mellon University
论文信息
作者 Lawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh et al.
发布日期 2026-06-08
arXiv ID 2606.09764
相关性评分 8/10 (高度相关)