使用监督思考状态的潜在推理

Agent Memory Chain-of-Thought Latent Reasoning Teacher Forcing Token Embedding

摘要

通过链式思维（CoT）进行推理使大型语言模型（LLMs）能够解决复杂任务，但由于生成长篇推理内容而产生显著的推理成本。本文提出了一种名为Thinking States的方法，在输入处理过程中进行推理。具体而言，Thinking States在每几个输入标记后生成一系列思考标记，将这些思考转换回嵌入空间，并将其添加到后续输入标记中。该方法具有两个关键优势：首先，它捕捉了CoT的递归性质，但思考标记是在输入处理过程中生成的；其次，由于思考以标记形式表示，因此可以从自然语言监督中学习，并利用可并行化的教师强制方法。实验证明，Thinking States在多个推理任务上优于其他潜在推理方法，在数学问题上缩小了与CoT的差距，并在2-Hop QA任务中实现了与CoT相当的性能且延迟更低。在状态跟踪任务中，我们展示了Thinking States比CoT表现出更强的推理行为，并成功地推广到训练时未见过的更长序列。

AI 推荐理由

论文提出Thinking States方法，涉及推理过程中的隐式状态表示，与Agent Memory相关但非唯一主题。

论文信息

作者 Ido Amos, Avi Caciularu, Mor Geva, Amir Globerson, Jonathan Herzig et al.

发布日期 2026-02-09

arXiv ID 2602.08332