摘要
图形用户界面(GUI)智能体对于推动智能人机交互范式至关重要。构建强大的GUI智能体需要大规模标注高质量的用户行为轨迹数据(即意图-轨迹对)进行训练。然而,手动标注方法和当前GUI智能体数据挖掘方法通常面临三个关键挑战:建设成本高、数据质量差和数据丰富性低。为了解决这些问题,我们提出了M$^2$-Miner,这是首个基于蒙特卡洛树搜索(MCTS)的低成本自动化移动GUI智能体数据挖掘框架。为了提高数据挖掘效率和质量,我们提出了一种协作的多智能体框架,包括InferAgent、OrchestraAgent和JudgeAgent,分别用于指导、加速和评估。为进一步提高挖掘效率并丰富意图多样性,我们设计了一种意图回收策略,以提取额外有价值的交互轨迹。此外,还引入了一种渐进式的模型在环训练策略,以提高数据挖掘的成功率。大量实验表明,使用我们挖掘的数据微调的GUI智能体在多个常用的移动GUI基准测试中达到了最先进的性能。我们的工作将被发布以促进社区研究。
AI 推荐理由
论文涉及多智能体协作与数据挖掘,但未明确讨论Agent Memory机制。
论文信息