WebArbiter：一种面向 Web 智能体的原则引导型推理过程奖励模型

Process Reward Model Web Agents Reasoning Reinforcement Learning

摘要

针对 Web 智能体在长程序列决策中面临的监督稀疏与延迟问题，本文提出 WebArbiter。这是一种基于原则引导的推理过程奖励模型（WebPRM），将奖励建模转化为文本生成任务，输出结构化论证以判定动作偏好。通过推理蒸馏与强化学习两阶段训练，该模型显著提升了泛化能力。在 WebPRMBench 基准测试中，其表现超越 GPT-5；在轨迹搜索任务中，优于现有最佳方法，展现了在复杂 Web 任务中的鲁棒性与实用价值。

AI 推荐理由

论文提出基于原则引导的推理过程奖励模型，核心在于提升 Agent 的推理判断能力。

研究机构

慕尼黑大学慕尼黑工业大学慕尼黑机器学习中心（MCML）

论文信息

作者 Yao Zhang, Shijie Tang, Zeyu Li, Zhen Han, Volker Tresp

发布日期 2026-01-29

arXiv ID 2601.21872