摘要
大型语言模型在复杂推理任务中表现卓越,基于可验证奖励的强化学习(RLVR)是对齐推理链的关键框架。然而,RLVR 存在资源消耗巨大的问题。本文重访了 RLVR 中的数据与计算效率问题,理论上确立了解锁推理能力所需的样本复杂度下限,并实证表明极少训练实例即可实现优异性能。为解决计算负担,作者提出了动态单次策略优化(DoPR),这是一种感知不确定性的 RL 策略,能根据奖励波动和探索驱动,每批次动态选取单个信息量最大的样本进行策略更新。该方法在保持竞争性推理精度的同时,将 rollout 开销降低近一个数量级,为推理密集型 LLM 应用提供了可扩展且高效的训练路径。
AI 推荐理由
论文核心针对推理模型,提出高效强化学习策略以提升推理能力并降低成本。
研究机构
UCAS
HKUST(GZ)
Tsinghua University
Sun Yat-Sen University
Xidian University
George Mason University
Peking University
Zhejiang University
论文信息