摘要
现代大语言模型(LLM)的推理能力显著提升,主要得益于基于可验证奖励的强化学习。本文探讨 LLM 是否能在无需额外训练的情况下实现自我改进。针对生成多样化高质量候选解及在无真值监督下可靠选择正确答案两大挑战,提出了测试时递归思考(TRT)框架。该方法通过迭代方式,结合特定展开策略、累积知识及自生成验证信号来优化生成过程。实验表明,开源模型在 AIME-25/24 上达到 100% 准确率,闭源模型在 LiveCodeBench 难题上提升显著。
AI 推荐理由
论文提出测试时递归思考框架,实现无外部反馈的自我改进,核心聚焦 Agent 自我进化机制。
研究机构
UC San Diego
论文信息