distribution sharpening training-free reasoning enhancement power sampling
摘要

强化学习后训练虽能提升大语言模型推理性能,但其增益主要源于分布锐化而非新能力获取。现有基于马尔可夫链蒙特卡洛的幂分布采样方法虽有效但计算成本高昂。本文提出一种理论驱动的新方法,证明全局幂分布可由令牌级缩放低温分布近似,其中缩放因子捕捉未来轨迹质量。据此,我们引入一种无需训练和验证器的自回归算法来锐化生成分布。实验表明,该方法在数学、问答及代码任务上表现媲美或超越单次 GRPO,且推理延迟较 MCMC 降低十倍有余。

AI 推荐理由

论文提出无训练方法通过分布锐化提升 LLM 推理性能,核心聚焦推理能力增强。

研究机构
华为诺亚方舟实验室
论文信息
作者 Xiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou Ammar
发布日期 2026-01-29
arXiv ID 2601.21590
相关性评分 9/10 (高度相关)