Agent Memory 意图对齐 移动GUI代理 基准测试 人机交互
摘要

在移动GUI代理领域,基准测试对于评估进展至关重要。然而,现实场景中用户的指令往往模糊且不完整,要求代理通过主动澄清和交互来理解真实意图。现有基准多基于理想化假设,忽视了对齐能力。为此,本文提出AmbiBench,引入四类清晰度分类(详细、标准、不完整、模糊),构建240个生态有效任务的数据集,并开发MUSE框架,从结果有效性、执行质量和交互质量三个维度进行细粒度评估。实验证明了当前最优代理在不同清晰度下的性能边界,验证了MUSE与人类判断的高度相关性,为下一代真正理解用户意图的代理奠定了基础。

AI 推荐理由

论文涉及Agent与用户意图对齐,隐含记忆机制,但非核心研究内容。

论文信息
作者 Jiazheng Sun, Mingxuan Li, Yingying Zhang, Jiayang Niu, Yachen Wu et al.
发布日期 2026-02-12
arXiv ID 2602.11750
相关性评分 6/10 (相关)