摘要
大型语言模型近期通过可验证奖励的强化学习(RLVR)提升了数学推理能力,但现有算法查询成本高昂。本文引入主动学习,提出“不确定性一致性”指标以解决经典策略忽略客观不确定性的问题。针对在线训练难点,设计了基于归一化优势的新变体。理论证明该变体能更好支持样本选择。实验表明,该方法仅用 30% 数据即可达到全数据集性能,显著降低了推理任务的训练成本。
AI 推荐理由
论文核心旨在通过优化 RLVR 数据选择策略,显著提升 LLM 的数学推理能力并降低成本。
研究机构
中国人民大学
阿里巴巴集团
北京理工大学计算机学院
论文信息