摘要
有效检索、推理和理解多模态信息仍然是智能体系统的关键挑战。传统的检索增强生成(RAG)方法依赖于线性交互历史,难以处理长上下文任务,尤其是在迭代推理场景中涉及信息稀疏但token密集的视觉数据时表现不佳。为弥补这一差距,我们提出VimRAG,一个专门用于跨文本、图像和视频的多模态检索增强推理框架。受系统研究启发,我们将推理过程建模为动态有向无环图,以结构化智能体状态和检索到的多模态证据。基于该结构化记忆,我们引入了图调节的视觉记忆编码机制,通过节点拓扑位置评估记忆重要性,使模型能够动态分配高分辨率token给关键证据,同时压缩或丢弃无关线索。为实现此范式,我们提出了一种图引导的策略优化方法,通过剪枝冗余动作相关的记忆节点,分离步骤级有效性与轨迹级奖励,从而实现细粒度的信用分配。大量实验表明,VimRAG在多种多模态RAG基准测试中始终达到最先进水平。
AI 推荐理由
论文核心围绕多模态记忆图构建与视觉记忆编码机制,直接涉及Agent Memory的创新设计。
论文信息