Reinforcement Learning LLM Reasoning Budget Allocation RLVR
摘要

可验证奖励的强化学习(RLVR)是增强大语言模型推理能力的关键方法。然而,现有框架通常采用统一的 rollout 预算,导致资源低效,且自适应方法往往忽视模型动态学习状态。为此,本文提出 CoBA-RL,一种基于模型演化能力自适应分配预算的算法。该方法利用能力导向价值函数映射任务的潜在训练增益,并通过堆贪心策略高效校准计算资源分布。实验表明,该方案有效平衡探索与利用,在多个基准测试中显著提升了泛化性能,证明了量化样本训练价值对优化后训练效率的重要性。

AI 推荐理由

论文核心旨在通过优化 RL 预算分配提升 LLM 推理能力,直接针对推理任务的后训练效率。

研究机构
中国科学院自动化研究所 清华大学
论文信息
作者 Zhiyuan Yao, Yi-Kai Zhang, Yuxin Chen, Yueqing Sun, Zishan Xu et al.
发布日期 2026-02-03
arXiv ID 2602.03048
相关性评分 9/10 (高度相关)