长链推理 结构建模 语义异构体 分布转移图
摘要

大型语言模型(LLMs)通常难以从人类或非长链推理的LLMs中学习有效的长链推理(Long CoT)。为理解这一现象,本文提出有效的长链推理轨迹在统一视角下具有稳定的类似分子结构,由三种交互类型构成:深度推理(类似共价键)、自我反思(类似氢键)和自我探索(类似范德华力)。通过对蒸馏轨迹的分析发现,这些结构来源于长链推理的微调,而非关键词模仿。本文引入有效语义异构体,表明仅能促进快速熵收敛的“键”支持稳定的长链推理学习,而结构竞争会损害训练效果。基于这些发现,本文提出了Mole-Syn方法,通过分布转移图引导有效长链推理结构的合成,在多个基准测试中提升了性能和强化学习的稳定性。

AI 推荐理由

论文探讨了长链推理的结构,与Agent Memory中的推理轨迹存储和稳定性相关,但非核心主题。

论文信息
作者 Qiguang Chen, Yantao Du, Ziniu Li, Jinhao Liu, Songyao Duan et al.
发布日期 2026-01-09
arXiv ID 2601.06002
相关性评分 5/10 (一般相关)