RLVR Training Efficiency Curriculum Learning Self-Improvement
摘要

标准的可验证奖励强化学习(RLVR)为每个查询分配固定 rollout 预算,忽略查询难度,导致简单或无解查询浪费训练算力。本文提出排序组策略优化(sGPO),利用少量推理算力作为查询难度的代理,动态调整训练 rollout 组大小。该方法同时驱动数据过滤、自适应组大小分配及课程构建,在包含预分析成本的情况下,将总训练算力减少三倍,同时匹配或超越基线性能,显著提升了样本效率和模型自我进化能力。

AI 推荐理由

论文提出 sGPO 优化 RL 训练效率,通过自适应课程和反馈实现模型自我改进,属进化范畴。

研究机构
AI Innovation, Red Hat Core AI, IBM
论文信息
作者 Shivchander Sudalairaj, Kai Xu, Akash Srivastava, Giorgio Giannone
发布日期 2026-06-07
arXiv ID 2606.08854
相关性评分 8/10 (高度相关)