摘要
尽管测试时扩展取得了成功,但大型推理模型(LRMs)经常遇到导致计算浪费和推理失败的重复循环。本文识别出一种称为循环推理的独特故障模式。不同于传统的模型退化,这种现象表现为一种自我强化的陷阱,生成的内容作为自身重复的逻辑前提,迫使先前文本的重复。为系统分析这一现象,我们引入了LoopBench数据集,用于捕捉两种不同的循环类型:数值循环和陈述循环。从机制上讲,我们将循环推理描述为一种具有明确边界的崩溃状态,语义重复先于文本重复。我们发现推理困境会触发循环的开始,随后由自增强的V型注意力机制驱动形成无法逃脱的循环。基于这些发现,我们采用累积和(CUSUM)算法来捕捉这些前兆以实现早期循环预测。在多种LRM上的实验验证了其准确性,并阐明了长链推理的稳定性。
AI 推荐理由
论文探讨了大模型中的循环推理问题,涉及推理过程中的重复和状态崩溃,与Agent Memory中状态保持和循环控制相关。
论文信息