奖励即标签：从分类视角重审可验证奖励的强化学习

RLVR Mathematical Reasoning Policy Optimization Classification

摘要

本文针对可验证奖励强化学习（RLVR）在复杂推理任务中的梯度分配失衡问题，提出“奖励即标签”（REAL）框架。该方法将标量奖励重构为分类标签，把策略优化转化为分类问题，并引入锚点逻辑值以增强学习。理论分析表明，REAL 能实现单调有界的梯度加权，平衡滚动更新。在数学推理基准上的实验显示，REAL 显著提升了训练稳定性与性能，在 1.5B 和 7B 模型上均优于 GRPO、DAPO 等强基线方法。

AI 推荐理由

论文核心解决数学推理任务中的 RL 优化问题，显著提升推理能力。

研究机构

中国科学院大学

论文信息

作者 Zepeng Zhai, Meilin Chen, Jiaxuan Zhao, Junlang Qian, Lei Shen et al.

发布日期 2026-02-05

arXiv ID 2602.05630