摘要
基于大语言模型的网络代理在自动化网络任务方面展现出良好的能力。然而,当前网络代理由于预测环境变化的能力有限,难以推理出合理的行动,并可能缺乏对执行风险的全面认知,从而过早采取高风险行动导致损失和任务失败。为解决这些问题,我们提出了WAC,一种结合模型协作、后果模拟和反馈驱动行动优化的网络代理。为克服单个模型的认知孤立,我们引入了多代理协作过程,使行动模型可以咨询作为网络环境专家的世界模型以获得战略指导;然后,行动模型将这些建议转化为可执行的行动,利用环境状态转移动态的先验知识来增强候选行动提案。为实现风险感知的弹性任务执行,我们引入了一个两阶段的推理链。一个专门研究环境状态转移的世界模型模拟行动结果,然后由判断模型进行审查,并在必要时触发行动修正反馈。实验表明,WAC在VisualWebArena上实现了1.8%的绝对提升,在Online-Mind2Web上实现了1.3%的绝对提升。
AI 推荐理由
论文涉及基于世界模型的行动修正机制,与Agent Memory中的环境状态模拟和风险评估相关。
论文信息