LLM 迭代计算 深度增长 循环结构 推理优化
摘要

循环(重复使用某层块)和深度增长(通过复制中间层训练浅至深模型)均被发现能提升推理能力,但其关系尚不明确。本文提供了一种机制性统一:循环和深度增长模型在深度方向上表现出收敛特征,包括对后期层的依赖增加以及与循环或增长块一致的重复模式。这些共享特征支持了它们的增益源于共同形式的迭代计算的观点。基于这一联系,我们展示了这两种技术具有适应性和可组合性:在推理时对深度增长模型的中间块进行循环操作,可在某些推理原语上将准确率提高2倍,尽管该模型从未被训练过循环。两种方法在获得更多上下文示例或额外监督微调数据时也比基线表现更好。此外,当使用高质量、数学密集型的冷却混合数据时,深度增长模型获得最大的推理增益,并可通过适配中间块循环进一步增强。总体而言,我们的结果将深度增长和循环定位为互补且实用的方法,用于诱导和扩展迭代计算以提升推理能力。

AI 推荐理由

论文探讨了迭代计算机制,与Agent Memory中的循环和深度扩展相关,但非核心主题。

论文信息
作者 Ferdinand Kapl, Emmanouil Angelis, Kaitlin Maile, Johannes von Oswald, Stefan Bauer
发布日期 2026-02-18
arXiv ID 2602.16490
相关性评分 6/10 (相关)