Reward Model Agentic RL Reasoning Quality Process Supervision
摘要

代理强化学习虽在复杂推理与工具使用中取得成功,但多依赖稀疏的结果奖励,难以区分中间推理质量。本文提出代理推理奖励模型(Agent-RRM),生成包含显式推理轨迹、聚焦缺陷的批判性指导及整体评分的结构化反馈。基于此,研究了三种整合策略。在十二个基准测试中的评估表明,统一反馈整合策略显著提升了性能,验证了该推理奖励模型及训练方案的有效性。

AI 推荐理由

论文核心提出推理奖励模型,旨在优化代理的中间推理质量与反馈机制。

研究机构
MMLab, CUHK Meituan SEEM, CUHK
论文信息
作者 Kaixuan Fan, Kaituo Feng, Manyuan Zhang, Tianshuo Peng, Zhixun Li et al.
发布日期 2026-01-29
arXiv ID 2601.22154
相关性评分 9/10 (高度相关)