Process Reward Model Web Agents Reasoning Reinforcement Learning
摘要

针对 Web 智能体在长程序列决策中面临的监督稀疏与延迟问题,本文提出 WebArbiter。这是一种基于原则引导的推理过程奖励模型(WebPRM),将奖励建模转化为文本生成任务,输出结构化论证以判定动作偏好。通过推理蒸馏与强化学习两阶段训练,该模型显著提升了泛化能力。在 WebPRMBench 基准测试中,其表现超越 GPT-5;在轨迹搜索任务中,优于现有最佳方法,展现了在复杂 Web 任务中的鲁棒性与实用价值。

AI 推荐理由

论文提出基于原则引导的推理过程奖励模型,核心在于提升 Agent 的推理判断能力。

研究机构
慕尼黑大学 慕尼黑工业大学 慕尼黑机器学习中心(MCML)
论文信息
作者 Yao Zhang, Shijie Tang, Zeyu Li, Zhen Han, Volker Tresp
发布日期 2026-01-29
arXiv ID 2601.21872
相关性评分 9/10 (高度相关)