多模态记忆 检索增强生成 图神经网络 智能体记忆
摘要

有效检索、推理和理解多模态信息仍然是智能体系统的关键挑战。传统的检索增强生成(RAG)方法依赖于线性交互历史,难以处理长上下文任务,尤其是在迭代推理场景中涉及信息稀疏但token密集的视觉数据时表现不佳。为弥补这一差距,我们提出VimRAG,一个专门用于跨文本、图像和视频的多模态检索增强推理框架。受系统研究启发,我们将推理过程建模为动态有向无环图,以结构化智能体状态和检索到的多模态证据。基于该结构化记忆,我们引入了图调节的视觉记忆编码机制,通过节点拓扑位置评估记忆重要性,使模型能够动态分配高分辨率token给关键证据,同时压缩或丢弃无关线索。为实现此范式,我们提出了一种图引导的策略优化方法,通过剪枝冗余动作相关的记忆节点,分离步骤级有效性与轨迹级奖励,从而实现细粒度的信用分配。大量实验表明,VimRAG在多种多模态RAG基准测试中始终达到最先进水平。

AI 推荐理由

论文核心围绕多模态记忆图构建与视觉记忆编码机制,直接涉及Agent Memory的创新设计。

论文信息
作者 Qiuchen Wang, Shihang Wang, Yu Zeng, Qiang Zhang, Fanrui Zhang et al.
发布日期 2026-02-13
arXiv ID 2602.12735
相关性评分 9/10 (高度相关)