RLVR Math Reasoning Prompt Selection GRPO
摘要

可验证奖励强化学习(RLVR)在训练大语言模型处理确定性结果推理任务时效果显著。针对现有方法仅依赖训练准确率方差选择提示导致优化不稳的问题,本文提出“正负配对”机制:每步更新采样一个难但可解的正向提示和一个易但脆弱的负向提示。结合加权 GRPO 算法,通过双向信号放大稀有成功并惩罚稀有失败,显著提升样本效率。实验表明,该方法在 Qwen2.5-Math-7B 上大幅超越基于方差的基线,且在少提示设置下媲美大规模训练效果。

AI 推荐理由

论文核心研究通过 RLVR 提升 LLM 在确定性结果推理任务(如数学)上的能力。

研究机构
中国科学院自动化研究所 中国科学院大学
论文信息
作者 Xin Sheng, Jiaxin Li, Yujuan Pang, Ran Peng, Yong Ma
发布日期 2026-02-03
arXiv ID 2602.03452
相关性评分 9/10 (高度相关)