摘要
可验证奖励强化学习(RLVR)在训练大语言模型处理确定性结果推理任务时效果显著。针对现有方法仅依赖训练准确率方差选择提示导致优化不稳的问题,本文提出“正负配对”机制:每步更新采样一个难但可解的正向提示和一个易但脆弱的负向提示。结合加权 GRPO 算法,通过双向信号放大稀有成功并惩罚稀有失败,显著提升样本效率。实验表明,该方法在 Qwen2.5-Math-7B 上大幅超越基于方差的基线,且在少提示设置下媲美大规模训练效果。
AI 推荐理由
论文核心研究通过 RLVR 提升 LLM 在确定性结果推理任务(如数学)上的能力。
研究机构
中国科学院自动化研究所
中国科学院大学
论文信息