Latent Reasoning Reinforcement Learning Chain-of-Thought Active Planning
摘要

针对高效密集的思维链推理,潜在推理方法微调大语言模型,用连续潜在令牌替代离散语言令牌。然而,现有方法多基于模仿语言标签进行监督,忽略了思维链的多样性,导致潜在表示次优及规划能力受限。本文提出主动潜在规划方法(ATP-Latent),将潜在令牌监督建模为条件变分自编码器以构建平滑潜在空间,并引入基于一致性的一致性奖励进行强化学习,以引导最优推理策略。实验表明,该方法在提升准确率的同时显著减少了令牌消耗。

AI 推荐理由

论文核心研究基于潜在空间的思维链推理机制,通过强化学习优化推理策略。

研究机构
新加坡国立大学计算机学院
论文信息
作者 Zhi Zheng, Wee Sun Lee
发布日期 2026-01-29
arXiv ID 2601.21598
相关性评分 9/10 (高度相关)