摘要
实用的手机代理需具备个人智能,能基于设备上的用户身份、历史及偏好进行推理,而非仅在隔离沙盒中执行指令。针对现有移动代理基准缺乏个性化支持的现状,本文提出 iOSWorld,这是首个围绕持久用户身份构建的交互式原生 iOS 模拟器基准,涵盖 26 个新建应用及交易、消息等关联数据。该基准包含 133 项任务,重点测试跨应用协作及基于个人数据的模式推断能力。实验评估了前沿模型在不同设置下的表现,揭示了多应用任务中的性能瓶颈及辅助信息对小模型的局限性。
AI 推荐理由
论文核心在于评估 Agent 利用用户历史、身份等持久化数据进行个性化推理的能力,直接对应记忆机制。
研究机构
Carnegie Mellon University
论文信息