摘要
大规模推理模型通过扩展推理时的思维链实现强大性能,但该范式存在二次成本、上下文长度限制以及因中间丢失效应导致的推理退化问题。迭代推理通过定期总结中间思考缓解这些问题,但现有方法依赖监督学习或固定启发式规则,无法优化何时总结、保留什么以及如何恢复推理。我们提出InftyThink+,一种端到端的强化学习框架,优化整个迭代推理轨迹,基于模型控制的迭代边界和显式总结。InftyThink+采用两阶段训练方案,先进行监督冷启动,然后进行轨迹级强化学习,使模型能够学习战略性总结和继续推理的决策。在DeepSeek-R1-Distill-Qwen-1.5B上的实验表明,InftyThink+在AIME24上将准确率提高了21%,显著优于传统长思维链强化学习方法,并在分布外基准测试中表现出更好的泛化能力。此外,InftyThink+显著减少了推理延迟并加速了强化学习训练,展示了更强的性能和推理效率。
AI 推荐理由
论文涉及迭代推理中的中间结果总结,与Agent Memory相关,但非核心主题。
论文信息