Reinforcement Learning Reasoning Efficiency Dynamic Sampling LLM Training
摘要

RLVR 已成为训练大语言模型处理可验证结果推理任务的标准方法,但在生成过程主导成本时,效率高度依赖于提示词的采样策略。现有方法通常假设固定的提示池,难以支持稳定的在线策略增长或引入额外教师成本。本文提出 HeaPA,通过基于堆的边界采样追踪能力前沿,利用轻量级异步验证实现在线策略池扩展,并通过拓扑感知的统计重估计稳定相关查询。实验表明,该方法在多个基准上以更少计算量达到目标性能,且随模型规模增大收益更显著。

AI 推荐理由

论文核心针对可验证结果的推理任务,通过优化采样策略提升 LLM 推理训练效率。

研究机构
Amazon Inc.
论文信息
作者 Weiqi Wang, Xin Liu, Binxuan Huang, Hejie Cui, Rongzhi Zhang et al.
发布日期 2026-01-30
arXiv ID 2601.22448
相关性评分 9/10 (高度相关)