摘要
RLVR 已成为训练大语言模型处理可验证结果推理任务的标准方法,但在生成过程主导成本时,效率高度依赖于提示词的采样策略。现有方法通常假设固定的提示池,难以支持稳定的在线策略增长或引入额外教师成本。本文提出 HeaPA,通过基于堆的边界采样追踪能力前沿,利用轻量级异步验证实现在线策略池扩展,并通过拓扑感知的统计重估计稳定相关查询。实验表明,该方法在多个基准上以更少计算量达到目标性能,且随模型规模增大收益更显著。
AI 推荐理由
论文核心针对可验证结果的推理任务,通过优化采样策略提升 LLM 推理训练效率。
研究机构
Amazon Inc.
论文信息