摘要
针对 Web 智能体在长程序列决策中面临的监督稀疏与延迟问题,本文提出 WebArbiter。这是一种基于原则引导的推理过程奖励模型(WebPRM),将奖励建模转化为文本生成任务,输出结构化论证以判定动作偏好。通过推理蒸馏与强化学习两阶段训练,该模型显著提升了泛化能力。在 WebPRMBench 基准测试中,其表现超越 GPT-5;在轨迹搜索任务中,优于现有最佳方法,展现了在复杂 Web 任务中的鲁棒性与实用价值。
AI 推荐理由
论文提出基于原则引导的推理过程奖励模型,核心在于提升 Agent 的推理判断能力。
研究机构
慕尼黑大学
慕尼黑工业大学
慕尼黑机器学习中心(MCML)
论文信息