sGPO：在可验证奖励的强化学习中以推理算力换取训练效率

RLVR Training Efficiency Curriculum Learning Self-Improvement

摘要

标准的可验证奖励强化学习（RLVR）为每个查询分配固定 rollout 预算，忽略查询难度，导致简单或无解查询浪费训练算力。本文提出排序组策略优化（sGPO），利用少量推理算力作为查询难度的代理，动态调整训练 rollout 组大小。该方法同时驱动数据过滤、自适应组大小分配及课程构建，在包含预分析成本的情况下，将总训练算力减少三倍，同时匹配或超越基线性能，显著提升了样本效率和模型自我进化能力。

AI 推荐理由

论文提出 sGPO 优化 RL 训练效率，通过自适应课程和反馈实现模型自我改进，属进化范畴。

研究机构

AI Innovation, Red Hat Core AI, IBM

论文信息

作者 Shivchander Sudalairaj, Kai Xu, Akash Srivastava, Giorgio Giannone

发布日期 2026-06-07

arXiv ID 2606.08854