学习用于最佳 N 选一的生成式选择

Reinforcement Learning Test-time Scaling Reasoning Best-of-N

摘要

通过并行采样扩展测试时计算可显著提升大语言模型的推理能力，但常受限于最佳 N 选一（Best-of-N）的选择质量。现有生成式选择方法虽能缓解此瓶颈，但高性能往往局限于大模型。本文证明，小型推理模型可通过针对性强化学习获得强大的生成式选择能力。研究者从大规模数学和代码数据集中合成选择任务，利用 DAPO 算法训练 1.7B 参数模型以奖励正确选择。实验表明，该模型在多项推理基准上优于提示工程和多数投票基线，甚至媲美更大模型，且具备跨模型泛化能力。

AI 推荐理由

论文核心研究通过强化学习提升小模型在推理任务中的最佳选择能力，直接优化推理效果。

研究机构

NVIDIA

论文信息

作者 Shubham Toshniwal, Aleksander Ficek, Siddhartha Jain, Wei Du, Vahid Noroozi et al.

发布日期 2026-02-02

arXiv ID 2602.02143