不要浪费你的 rollout：回收搜索经验以实现高效的测试时扩展

Test-Time Scaling Reasoning Efficiency Search Experience Recycling

摘要

测试时扩展通过分配额外推理计算来增强大语言模型的推理能力，但现有策略常将 rollout 视为一次性样本，导致有价值的中间洞察被丢弃，引发计算冗余。为此，本文提出“回收搜索经验”（RSE），一种无需训练的自引导策略，将孤立的测试时搜索转化为累积过程。该方法通过将原始轨迹提炼为共享经验库，正向复用中间结论以缩短推导，负向复用失败模式以剪枝死胡同。理论与实验表明，RSE 在同等计算成本下显著优于基线，实现了最先进的扩展效率。

AI 推荐理由

论文核心在于通过复用搜索经验优化测试时扩展，显著提升复杂推理任务效率。

研究机构

School of Computer Science, Beijing Institute of Technology

论文信息

作者 Xinglin Wang, Jiayi Shi, Shaoxiong Feng, Peiwen Yuan, Yiwei Li et al.

发布日期 2026-01-29

arXiv ID 2601.21684