小型可泛化提示预测模型可引导大型推理模型的高效强化学习后训练

Reinforcement Learning Reasoning Enhancement Prompt Selection Training Efficiency

摘要

强化学习虽能增强大语言模型的推理能力，但常因密集 rollout 优化导致计算成本高昂。在线提示选择通过优先处理信息丰富的提示来提升效率，但现有方法依赖昂贵评估或缺乏泛化性。本研究提出通用提示预测选择（GPS）方法，利用基于共享优化历史训练的轻量级生成模型进行贝叶斯推断以评估提示难度。该方法结合中等难度优先与历史锚定多样性原则选取提示批次，并在测试时泛化以实现高效计算分配。实验表明，GPS 在训练效率、最终性能及测试效率上均显著优于基线方法。

AI 推荐理由

论文核心旨在通过高效 RL 后训练提升大模型的推理能力，提出 GPS 方法优化训练效率。

研究机构

清华大学自动化系腾讯LMI部门

论文信息

作者 Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang et al.

发布日期 2026-02-02

arXiv ID 2602.01970