思考更久以探索更深：通过长度激励强化学习实现上下文中的探索

强化学习上下文探索状态覆盖 LLM训练

摘要

实现有效的测试时扩展需要模型具备上下文探索能力——即在单一连续上下文中生成、验证和优化多个推理假设的内在能力。基于状态覆盖理论，我们的分析发现实现这一能力的关键瓶颈在于：虽然更广泛的状态覆盖需要更长的推理轨迹，但在自回归生成过程中，采样此类序列的概率呈指数级下降，我们称之为“浅层探索陷阱”。为弥合这一差距，我们提出长度激励探索（Length-Incentivized Exploration）。该方法通过结合基于长度的奖励和冗余惩罚，显式鼓励模型进行更多探索，从而以两步方式最大化状态覆盖。在不同模型（Qwen3, Llama）上的全面实验表明，该方法有效激励了上下文探索。因此，我们的方法在领域内任务上平均提升了4.4%，在领域外基准测试中获得了2.7%的提升。

AI 推荐理由

论文涉及探索机制与上下文推理，与Agent Memory相关但非核心主题。

论文信息

作者 Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang et al.

发布日期 2026-02-12

arXiv ID 2602.11748