摘要
搜索增强推理代理将多步推理与外部检索交织,但无控检索常导致证据冗余和上下文饱和。现有方法依赖基于结果的强化学习,指导有限。本文提出 DeepControl 框架,基于形式化的信息效用概念,衡量检索证据在特定推理状态下的边际价值。据此引入检索延续与粒度控制机制,选择性调节检索时机与信息量。退火控制策略使代理在训练中内化高效信息获取行为。实验表明,该方法在七个基准上显著优于强基线,凸显了自适应信息控制在扩展复杂环境推理中的重要性。
AI 推荐理由
论文核心研究搜索增强推理中的自适应信息控制机制,直接提升推理能力。
研究机构
佐治亚理工学院
论文信息