摘要
尽管显式的Chain-of-Thought(CoT)方法赋予大语言模型(LLMs)强大的推理能力,但其要求模型在文本标记中明确表达每一步中间过程,限制了模型思维的表达空间。最近,基于连续潜在空间的推理方法成为一种有前景的替代方案,能够实现超越离散标记约束的鲁棒推理和灵活计算。然而,当前的潜在空间方法常因特征坍缩和不稳定性而受到限制,这源于重复使用隐藏状态作为输入嵌入时的分布不匹配问题,或依赖辅助模型时的对齐问题。为了解决这些问题,我们提出了潜在思维调优(LT-Tuning)框架,重新定义了潜在思维的构建与部署方式。该方法不再仅依赖原始隐藏状态,而是引入了上下文-预测-融合机制,联合利用上下文隐藏状态和词汇嵌入空间中的预测语义指导。结合渐进式三阶段课程学习流程,LT-Tuning还支持在潜在推理模式与显式推理模式之间动态切换。实验表明,我们的方法优于现有的潜在推理基线,有效缓解了特征坍塌问题,并实现了稳健的推理精度。
AI 推荐理由
论文探讨了隐式推理机制,涉及连续潜在空间中的记忆表示与构建,属于Agent Memory相关研究。
论文信息