少即是多：不确定性一致性引导的 RLVR 查询选择

RLVR Mathematical Reasoning Active Learning Uncertainty Estimation

摘要

大型语言模型近期通过可验证奖励的强化学习（RLVR）提升了数学推理能力，但现有算法查询成本高昂。本文引入主动学习，提出“不确定性一致性”指标以解决经典策略忽略客观不确定性的问题。针对在线训练难点，设计了基于归一化优势的新变体。理论证明该变体能更好支持样本选择。实验表明，该方法仅用 30% 数据即可达到全数据集性能，显著降低了推理任务的训练成本。

AI 推荐理由

论文核心旨在通过优化 RLVR 数据选择策略，显著提升 LLM 的数学推理能力并降低成本。

研究机构

中国人民大学阿里巴巴集团北京理工大学计算机学院

论文信息

作者 Hao Yi, Yulan Hu, Xin Li, Sheng Ouyang, Lizhong Ding et al.

发布日期 2026-01-30

arXiv ID 2601.22595