摘要
通过链式思维(CoT)进行推理使大型语言模型(LLMs)能够解决复杂任务,但由于生成长篇推理内容而产生显著的推理成本。本文提出了一种名为Thinking States的方法,在输入处理过程中进行推理。具体而言,Thinking States在每几个输入标记后生成一系列思考标记,将这些思考转换回嵌入空间,并将其添加到后续输入标记中。该方法具有两个关键优势:首先,它捕捉了CoT的递归性质,但思考标记是在输入处理过程中生成的;其次,由于思考以标记形式表示,因此可以从自然语言监督中学习,并利用可并行化的教师强制方法。实验证明,Thinking States在多个推理任务上优于其他潜在推理方法,在数学问题上缩小了与CoT的差距,并在2-Hop QA任务中实现了与CoT相当的性能且延迟更低。在状态跟踪任务中,我们展示了Thinking States比CoT表现出更强的推理行为,并成功地推广到训练时未见过的更长序列。
AI 推荐理由
论文提出Thinking States方法,涉及推理过程中的隐式状态表示,与Agent Memory相关但非唯一主题。
论文信息