摘要
针对测试时计算扩展通常均匀分配且策略固定的问题,本文提出一种验证器引导的自适应框架,将推理视为迭代轨迹生成与选择过程。该框架在每次迭代中动态生成高层计划、选择推理工具及计算策略,并利用过程奖励模型(PRM)作为统一控制信号:在迭代内指导剪枝与扩展,在迭代间基于聚合奖励选择最终响应。实验表明,该方法在 MATH-500 及高难度基准上显著优于直接扩展,有效集中计算资源于高效用推理路径。
AI 推荐理由
论文核心研究自适应测试时计算分配以优化推理轨迹生成与选择,显著提升数学推理性能。
研究机构
未提供单位
论文信息