RLVR Mathematical Reasoning Active Learning Uncertainty Estimation
摘要

大型语言模型近期通过可验证奖励的强化学习(RLVR)提升了数学推理能力,但现有算法查询成本高昂。本文引入主动学习,提出“不确定性一致性”指标以解决经典策略忽略客观不确定性的问题。针对在线训练难点,设计了基于归一化优势的新变体。理论证明该变体能更好支持样本选择。实验表明,该方法仅用 30% 数据即可达到全数据集性能,显著降低了推理任务的训练成本。

AI 推荐理由

论文核心旨在通过优化 RLVR 数据选择策略,显著提升 LLM 的数学推理能力并降低成本。

研究机构
中国人民大学 阿里巴巴集团 北京理工大学计算机学院
论文信息
作者 Hao Yi, Yulan Hu, Xin Li, Sheng Ouyang, Lizhong Ding et al.
发布日期 2026-01-30
arXiv ID 2601.22595
相关性评分 9/10 (高度相关)