摘要
通过专家轨迹的模仿学习训练交互式网页智能体虽有效,但专家干预时机难以确定。延迟干预导致早期错误累积,过早干预则使模型陷入局部最优。本文提出推测性回滚修正(SRC)框架,采用固定视野分支审查机制:学生智能体先执行短期推测片段,仅在进度受阻时由教师定位首个有害偏差并回滚。该方法保留有用前缀,并通过验证器筛选成功轨迹存入多样性档案,支持后续监督微调。实验显示其在 WebArena-Infinity 上显著提升了恢复能力与查询效率的平衡。
AI 推荐理由
论文提出推测性回滚修正框架,优化智能体在网页任务中的多步执行路径规划与错误恢复机制。
研究机构
北京邮电大学
香港科技大学
西北工业大学
清华大学
论文信息