通过动态单次策略优化实现推理大语言模型的资源高效强化学习

Reinforcement Learning Reasoning Efficiency Sample Complexity LLM Post-training

摘要

大型语言模型在复杂推理任务中表现卓越，基于可验证奖励的强化学习（RLVR）是对齐推理链的关键框架。然而，RLVR 存在资源消耗巨大的问题。本文重访了 RLVR 中的数据与计算效率问题，理论上确立了解锁推理能力所需的样本复杂度下限，并实证表明极少训练实例即可实现优异性能。为解决计算负担，作者提出了动态单次策略优化（DoPR），这是一种感知不确定性的 RL 策略，能根据奖励波动和探索驱动，每批次动态选取单个信息量最大的样本进行策略更新。该方法在保持竞争性推理精度的同时，将 rollout 开销降低近一个数量级，为推理密集型 LLM 应用提供了可扩展且高效的训练路径。

AI 推荐理由

论文核心针对推理模型，提出高效强化学习策略以提升推理能力并降低成本。

研究机构

UCAS HKUST(GZ) Tsinghua University Sun Yat-Sen University Xidian University George Mason University Peking University Zhejiang University

论文信息

作者 Yunjian Zhang, Sudong Wang, Yang Li, Peiran Xu, Conghao Zhou et al.

发布日期 2026-01-31

arXiv ID 2602.00815