摘要
代理强化学习虽在复杂推理与工具使用中取得成功,但多依赖稀疏的结果奖励,难以区分中间推理质量。本文提出代理推理奖励模型(Agent-RRM),生成包含显式推理轨迹、聚焦缺陷的批判性指导及整体评分的结构化反馈。基于此,研究了三种整合策略。在十二个基准测试中的评估表明,统一反馈整合策略显著提升了性能,验证了该推理奖励模型及训练方案的有效性。
AI 推荐理由
论文核心提出推理奖励模型,旨在优化代理的中间推理质量与反馈机制。
研究机构
MMLab, CUHK
Meituan
SEEM, CUHK
论文信息