超越模仿：用于主动潜在规划的强化学习

Latent Reasoning Reinforcement Learning Chain-of-Thought Active Planning

摘要

针对高效密集的思维链推理，潜在推理方法微调大语言模型，用连续潜在令牌替代离散语言令牌。然而，现有方法多基于模仿语言标签进行监督，忽略了思维链的多样性，导致潜在表示次优及规划能力受限。本文提出主动潜在规划方法（ATP-Latent），将潜在令牌监督建模为条件变分自编码器以构建平滑潜在空间，并引入基于一致性的一致性奖励进行强化学习，以引导最优推理策略。实验表明，该方法在提升准确率的同时显著减少了令牌消耗。

AI 推荐理由

论文核心研究基于潜在空间的思维链推理机制，通过强化学习优化推理策略。

研究机构

新加坡国立大学计算机学院

论文信息

作者 Zhi Zheng, Wee Sun Lee

发布日期 2026-01-29

arXiv ID 2601.21598