Test-Time Scaling Reasoning Efficiency Search Experience Recycling
摘要

测试时扩展通过分配额外推理计算来增强大语言模型的推理能力,但现有策略常将 rollout 视为一次性样本,导致有价值的中间洞察被丢弃,引发计算冗余。为此,本文提出“回收搜索经验”(RSE),一种无需训练的自引导策略,将孤立的测试时搜索转化为累积过程。该方法通过将原始轨迹提炼为共享经验库,正向复用中间结论以缩短推导,负向复用失败模式以剪枝死胡同。理论与实验表明,RSE 在同等计算成本下显著优于基线,实现了最先进的扩展效率。

AI 推荐理由

论文核心在于通过复用搜索经验优化测试时扩展,显著提升复杂推理任务效率。

研究机构
School of Computer Science, Beijing Institute of Technology
论文信息
作者 Xinglin Wang, Jiayi Shi, Shaoxiong Feng, Peiwen Yuan, Yiwei Li et al.
发布日期 2026-01-29
arXiv ID 2601.21684
相关性评分 9/10 (高度相关)