摘要
本文提出 InfoReasoner 框架,旨在解决大型推理模型在动态获取外部知识时缺乏密集奖励信号的问题。该框架引入合成语义信息增益奖励,理论上将信息增益重定义为信念状态的不确定性减少,并证明了其非负性等性质。实践中,利用输出感知的内在估计器,通过双向文本蕴含进行语义聚类,直接从模型输出分布计算信息增益,无需人工标注。该奖励引导策略最大化认知进展,并通过组相对策略优化实现高效训练。实验表明,该方法在七个问答基准上显著优于现有基线。
AI 推荐理由
论文核心提出通过检索优化代理推理的框架,直接针对推理能力进行增强。
研究机构
香港城市大学智能城市STEM实验室
香港城市大学
论文信息