摘要
实现有效的测试时扩展需要模型具备上下文探索能力——即在单一连续上下文中生成、验证和优化多个推理假设的内在能力。基于状态覆盖理论,我们的分析发现实现这一能力的关键瓶颈在于:虽然更广泛的状态覆盖需要更长的推理轨迹,但在自回归生成过程中,采样此类序列的概率呈指数级下降,我们称之为“浅层探索陷阱”。为弥合这一差距,我们提出长度激励探索(Length-Incentivized Exploration)。该方法通过结合基于长度的奖励和冗余惩罚,显式鼓励模型进行更多探索,从而以两步方式最大化状态覆盖。在不同模型(Qwen3, Llama)上的全面实验表明,该方法有效激励了上下文探索。因此,我们的方法在领域内任务上平均提升了4.4%,在领域外基准测试中获得了2.7%的提升。
AI 推荐理由
论文涉及探索机制与上下文推理,与Agent Memory相关但非核心主题。
论文信息