面向质量多样化网页智能体模仿学习的推测性回滚修正

imitation learning web agents error correction trajectory optimization

摘要

通过专家轨迹的模仿学习训练交互式网页智能体虽有效，但专家干预时机难以确定。延迟干预导致早期错误累积，过早干预则使模型陷入局部最优。本文提出推测性回滚修正（SRC）框架，采用固定视野分支审查机制：学生智能体先执行短期推测片段，仅在进度受阻时由教师定位首个有害偏差并回滚。该方法保留有用前缀，并通过验证器筛选成功轨迹存入多样性档案，支持后续监督微调。实验显示其在 WebArena-Infinity 上显著提升了恢复能力与查询效率的平衡。

AI 推荐理由

论文提出推测性回滚修正框架，优化智能体在网页任务中的多步执行路径规划与错误恢复机制。

研究机构

北京邮电大学香港科技大学西北工业大学清华大学

论文信息

作者 Longkun Hao, Hongyu Lin, Hao Li, Zhichao Yang, Haojie Hao et al.

发布日期 2026-06-10

arXiv ID 2606.12485