RAG 智能体轨迹生成 数据合成 噪声鲁棒性
摘要

智能体增强检索生成(Agentic RAG)使大型语言模型能够自主规划并检索信息以解决复杂问题。然而,高质量训练数据的缺乏限制了鲁棒智能体的发展,这些数据应能反映真实检索环境中的噪声和复杂性。传统的人工标注方法难以扩展且无法捕捉处理检索失败所需的动态推理策略。为此,我们提出RAGShaper,一种新颖的数据合成框架,旨在自动构建RAG任务和鲁棒智能体轨迹。RAGShaper引入了一个InfoCurator模块,用于构建包含对抗性干扰项的信息树,并提出了受限导航策略,迫使教师智能体面对这些干扰项,从而生成体现错误纠正和噪声拒绝的轨迹。全面实验表明,基于合成语料库训练的模型显著优于现有基线,在噪声密集和复杂检索任务中表现出更强的鲁棒性。

AI 推荐理由

论文涉及RAG中的噪声处理与轨迹生成,与Agent Memory的鲁棒性相关。

论文信息
作者 Zhengwei Tao, Bo Li, Jialong Wu, Guochen Yan, Huanyao Zhang et al.
发布日期 2026-01-13
arXiv ID 2601.08699
相关性评分 7/10 (相关)