Agent Memory Persistent Memory Dependency-Aware Search Multi-Hop Reasoning GRPO
摘要

大型语言模型(LLMs)在复杂推理任务中表现出显著能力,尤其是在结合搜索机制以系统探索外部知识库时。该领域已从传统的检索增强生成(RAG)框架发展为更复杂的基于搜索的框架,通过显式搜索策略协调多步骤推理。然而,现有搜索框架仍严重依赖隐式的自然语言推理来确定搜索策略以及如何跨推理步骤利用检索信息。这种对隐式推理的依赖给管理子问题之间的依赖关系、高效重用先前检索的知识以及通过强化学习学习最优搜索策略带来了根本性挑战。为了解决这些限制,我们提出了Dep-Search,一种依赖感知的搜索框架,通过GRPO整合结构化推理、检索和持久记忆,超越了现有搜索框架。Dep-Search引入了显式控制机制,使模型能够分解具有依赖关系的问题,在需要时检索信息,从内存中访问之前存储的知识,并将长推理上下文总结为可重用的记忆条目。通过对七个多样化问答数据集的广泛实验,我们证明Dep-Search显著增强了LLMs处理复杂多跳推理任务的能力,在不同模型规模上均优于强基线。

AI 推荐理由

论文标题和内容明确涉及持久化记忆机制,提出依赖感知的搜索框架,与Agent Memory核心研究密切相关。

论文信息
作者 Yanming Liu, Xinyue Peng, Zixuan Yan, Yanxin Shen, Wenjie Xu et al.
发布日期 2026-01-26
arXiv ID 2601.18771
相关性评分 9/10 (高度相关)