摘要
本文针对可验证奖励强化学习(RLVR)在复杂推理任务中的梯度分配失衡问题,提出“奖励即标签”(REAL)框架。该方法将标量奖励重构为分类标签,把策略优化转化为分类问题,并引入锚点逻辑值以增强学习。理论分析表明,REAL 能实现单调有界的梯度加权,平衡滚动更新。在数学推理基准上的实验显示,REAL 显著提升了训练稳定性与性能,在 1.5B 和 7B 模型上均优于 GRPO、DAPO 等强基线方法。
AI 推荐理由
论文核心解决数学推理任务中的 RL 优化问题,显著提升推理能力。
研究机构
中国科学院大学
论文信息