超越方差：基于稀有事件放大与双向配对的提示高效 RLVR

RLVR Math Reasoning Prompt Selection GRPO

摘要

可验证奖励强化学习（RLVR）在训练大语言模型处理确定性结果推理任务时效果显著。针对现有方法仅依赖训练准确率方差选择提示导致优化不稳的问题，本文提出“正负配对”机制：每步更新采样一个难但可解的正向提示和一个易但脆弱的负向提示。结合加权 GRPO 算法，通过双向信号放大稀有成功并惩罚稀有失败，显著提升样本效率。实验表明，该方法在 Qwen2.5-Math-7B 上大幅超越基于方差的基线，且在少提示设置下媲美大规模训练效果。

AI 推荐理由

论文核心研究通过 RLVR 提升 LLM 在确定性结果推理任务（如数学）上的能力。

研究机构

中国科学院自动化研究所中国科学院大学

论文信息

作者 Xin Sheng, Jiaxin Li, Yujuan Pang, Ran Peng, Yong Ma

发布日期 2026-02-03

arXiv ID 2602.03452