Reinforcement Learning Reasoning Efficiency Sample Complexity LLM Post-training
摘要

大型语言模型在复杂推理任务中表现卓越,基于可验证奖励的强化学习(RLVR)是对齐推理链的关键框架。然而,RLVR 存在资源消耗巨大的问题。本文重访了 RLVR 中的数据与计算效率问题,理论上确立了解锁推理能力所需的样本复杂度下限,并实证表明极少训练实例即可实现优异性能。为解决计算负担,作者提出了动态单次策略优化(DoPR),这是一种感知不确定性的 RL 策略,能根据奖励波动和探索驱动,每批次动态选取单个信息量最大的样本进行策略更新。该方法在保持竞争性推理精度的同时,将 rollout 开销降低近一个数量级,为推理密集型 LLM 应用提供了可扩展且高效的训练路径。

AI 推荐理由

论文核心针对推理模型,提出高效强化学习策略以提升推理能力并降低成本。

研究机构
UCAS HKUST(GZ) Tsinghua University Sun Yat-Sen University Xidian University George Mason University Peking University Zhejiang University
论文信息
作者 Yunjian Zhang, Sudong Wang, Yang Li, Peiran Xu, Conghao Zhou et al.
发布日期 2026-01-31
arXiv ID 2602.00815
相关性评分 9/10 (高度相关)