Agent Memory Retrieval-Augmented Reasoning Dual-Agent System Reinforcement Learning
摘要

近期通过强化学习训练的搜索增强型大语言模型(LLMs)能够在多跳推理任务中交替进行搜索和推理。然而,随着上下文信息的积累,这些模型面临两个关键失败模式:一是构建无效的搜索链,导致生成错误查询或遗漏关键信息;二是被外围证据干扰,使模型误将干扰信息识别为有效证据。为此,本文提出**D$^2$Plan**,一种面向复杂检索增强推理的双代理动态全局规划范式。该方法通过*Reasoner*和*Purifier*两个代理协作实现:*Reasoner*在推理过程中构建显式的全局计划,并根据检索反馈动态调整;*Purifier*评估检索的相关性并提取关键信息供*Reasoner*使用。此外,本文引入了一个两阶段训练框架,包括基于合成轨迹的监督微调(SFT)冷启动和以计划为导向的强化学习奖励机制,以帮助LLMs掌握**D$^2$Plan**范式。大量实验表明,**D$^2$Plan**能够实现更连贯的多步骤推理,并对无关信息具有更强的鲁棒性,在具有挑战性的问答基准测试中表现出色。

AI 推荐理由

论文提出双代理动态规划方法,涉及信息筛选与记忆管理,与Agent Memory相关。

论文信息
作者 Kangcheng Luo, Tinglang Wu, Yansong Feng
发布日期 2026-01-13
arXiv ID 2601.08282
相关性评分 7/10 (相关)