CoBA-RL：面向大语言模型强化学习的能力导向预算分配

Reinforcement Learning LLM Reasoning Budget Allocation RLVR

摘要

可验证奖励的强化学习（RLVR）是增强大语言模型推理能力的关键方法。然而，现有框架通常采用统一的 rollout 预算，导致资源低效，且自适应方法往往忽视模型动态学习状态。为此，本文提出 CoBA-RL，一种基于模型演化能力自适应分配预算的算法。该方法利用能力导向价值函数映射任务的潜在训练增益，并通过堆贪心策略高效校准计算资源分布。实验表明，该方案有效平衡探索与利用，在多个基准测试中显著提升了泛化性能，证明了量化样本训练价值对优化后训练效率的重要性。

AI 推荐理由

论文核心旨在通过优化 RL 预算分配提升 LLM 推理能力，直接针对推理任务的后训练效率。

研究机构

中国科学院自动化研究所清华大学

论文信息

作者 Zhiyuan Yao, Yi-Kai Zhang, Yuxin Chen, Yueqing Sun, Zishan Xu et al.

发布日期 2026-02-03

arXiv ID 2602.03048