探索面向智能体的推理奖励模型

Reward Model Agentic RL Reasoning Quality Process Supervision

摘要

代理强化学习虽在复杂推理与工具使用中取得成功，但多依赖稀疏的结果奖励，难以区分中间推理质量。本文提出代理推理奖励模型（Agent-RRM），生成包含显式推理轨迹、聚焦缺陷的批判性指导及整体评分的结构化反馈。基于此，研究了三种整合策略。在十二个基准测试中的评估表明，统一反馈整合策略显著提升了性能，验证了该推理奖励模型及训练方案的有效性。

AI 推荐理由

论文核心提出推理奖励模型，旨在优化代理的中间推理质量与反馈机制。

研究机构

MMLab, CUHK Meituan SEEM, CUHK

论文信息

作者 Kaixuan Fan, Kaituo Feng, Manyuan Zhang, Tianshuo Peng, Zhixun Li et al.

发布日期 2026-01-29

arXiv ID 2601.22154