强化学习 上下文探索 状态覆盖 LLM训练
摘要

实现有效的测试时扩展需要模型具备上下文探索能力——即在单一连续上下文中生成、验证和优化多个推理假设的内在能力。基于状态覆盖理论,我们的分析发现实现这一能力的关键瓶颈在于:虽然更广泛的状态覆盖需要更长的推理轨迹,但在自回归生成过程中,采样此类序列的概率呈指数级下降,我们称之为“浅层探索陷阱”。为弥合这一差距,我们提出长度激励探索(Length-Incentivized Exploration)。该方法通过结合基于长度的奖励和冗余惩罚,显式鼓励模型进行更多探索,从而以两步方式最大化状态覆盖。在不同模型(Qwen3, Llama)上的全面实验表明,该方法有效激励了上下文探索。因此,我们的方法在领域内任务上平均提升了4.4%,在领域外基准测试中获得了2.7%的提升。

AI 推荐理由

论文涉及探索机制与上下文推理,与Agent Memory相关但非核心主题。

论文信息
作者 Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang et al.
发布日期 2026-02-12
arXiv ID 2602.11748
相关性评分 6/10 (相关)