通过自适应信息控制扩展搜索增强的 LLM 推理

Search-Augmented Reasoning Adaptive Control Information Utility

摘要

搜索增强推理代理将多步推理与外部检索交织，但无控检索常导致证据冗余和上下文饱和。现有方法依赖基于结果的强化学习，指导有限。本文提出 DeepControl 框架，基于形式化的信息效用概念，衡量检索证据在特定推理状态下的边际价值。据此引入检索延续与粒度控制机制，选择性调节检索时机与信息量。退火控制策略使代理在训练中内化高效信息获取行为。实验表明，该方法在七个基准上显著优于强基线，凸显了自适应信息控制在扩展复杂环境推理中的重要性。

AI 推荐理由

论文核心研究搜索增强推理中的自适应信息控制机制，直接提升推理能力。

研究机构

佐治亚理工学院

论文信息

作者 Siheng Xiong, Oguzhan Gungordu, Blair Johnson, James C. Kerce, Faramarz Fekri

发布日期 2026-02-02

arXiv ID 2602.01672