摘要
可验证奖励的强化学习(RLVR)是增强大语言模型推理能力的关键方法。然而,现有框架通常采用统一的 rollout 预算,导致资源低效,且自适应方法往往忽视模型动态学习状态。为此,本文提出 CoBA-RL,一种基于模型演化能力自适应分配预算的算法。该方法利用能力导向价值函数映射任务的潜在训练增益,并通过堆贪心策略高效校准计算资源分布。实验表明,该方案有效平衡探索与利用,在多个基准测试中显著提升了泛化性能,证明了量化样本训练价值对优化后训练效率的重要性。
AI 推荐理由
论文核心旨在通过优化 RL 预算分配提升 LLM 推理能力,直接针对推理任务的后训练效率。
研究机构
中国科学院自动化研究所
清华大学
论文信息