Test-time Compute Process Reward Model Mathematical Reasoning Adaptive Inference
摘要

针对测试时计算扩展通常均匀分配且策略固定的问题,本文提出一种验证器引导的自适应框架,将推理视为迭代轨迹生成与选择过程。该框架在每次迭代中动态生成高层计划、选择推理工具及计算策略,并利用过程奖励模型(PRM)作为统一控制信号:在迭代内指导剪枝与扩展,在迭代间基于聚合奖励选择最终响应。实验表明,该方法在 MATH-500 及高难度基准上显著优于直接扩展,有效集中计算资源于高效用推理路径。

AI 推荐理由

论文核心研究自适应测试时计算分配以优化推理轨迹生成与选择,显著提升数学推理性能。

研究机构
未提供单位
论文信息
作者 Ahsan Bilal, Ahmed Mohsin, Muhammad Umer, Ali Subhan, Hassan Rizwan et al.
发布日期 2026-02-01
arXiv ID 2602.01070
相关性评分 9/10 (高度相关)