parallel reasoning test-time compute reinforcement learning math reasoning efficiency
摘要

前沿语言模型虽能随测试时计算增加而提升性能,但在固定推理预算下,串行推理或非协调并行采样往往计算效率低下。本文提出 SELFCEST 方法,利用代理强化学习赋予基础模型在独立并行上下文中生成同权重克隆的能力。该训练在全局任务奖励下端到端进行,采用共享参数 rollout,从而习得一个能在各分支间分配生成与上下文预算的控制器。实验表明,在同等推理预算下,SELFCEST 在高难度数学推理基准和长上下文多跳问答任务中,相较于单体基线模型改善了准确率 - 成本帕累托前沿,并展现出优异的分布外泛化能力。

AI 推荐理由

论文核心是通过并行克隆机制优化测试时计算,显著提升数学推理和多跳问答性能。

研究机构
中国科学院大学 阿里巴巴集团
论文信息
作者 Darren Li, Meiqi Chen, Chenze Shao, Fandong Meng, Jie Zhou
发布日期 2026-02-03
arXiv ID 2602.13262
相关性评分 9/10 (高度相关)