HeaPA：面向大语言模型强化学习的难度感知堆采样与在线策略查询增强

Reinforcement Learning Reasoning Efficiency Dynamic Sampling LLM Training

摘要

RLVR 已成为训练大语言模型处理可验证结果推理任务的标准方法，但在生成过程主导成本时，效率高度依赖于提示词的采样策略。现有方法通常假设固定的提示池，难以支持稳定的在线策略增长或引入额外教师成本。本文提出 HeaPA，通过基于堆的边界采样追踪能力前沿，利用轻量级异步验证实现在线策略池扩展，并通过拓扑感知的统计重估计稳定相关查询。实验表明，该方法在多个基准上以更少计算量达到目标性能，且随模型规模增大收益更显著。

AI 推荐理由

论文核心针对可验证结果的推理任务，通过优化采样策略提升 LLM 推理训练效率。

研究机构

Amazon Inc.

论文信息

作者 Weiqi Wang, Xin Liu, Binxuan Huang, Hejie Cui, Rongzhi Zhang et al.

发布日期 2026-01-30

arXiv ID 2601.22448