VimRAG：通过多模态记忆图在检索增强生成中导航大规模视觉上下文

多模态推理检索增强生成图神经网络智能体系统

摘要

有效检索、推理和理解多模态信息仍然是智能体系统的关键挑战。传统检索增强生成（RAG）方法依赖线性交互历史，难以处理长上下文任务，尤其是在涉及信息稀疏但token密集的视觉数据的迭代推理场景中。为解决这一问题，我们提出了VimRAG框架，专门用于文本、图像和视频的多模态检索增强推理。受系统性研究启发，我们将推理过程建模为动态有向无环图，以结构化智能体状态和检索到的多模态证据。基于此结构化记忆，我们引入了图调节的视觉记忆编码机制，通过节点拓扑位置评估记忆节点的重要性，使模型能够动态分配高分辨率token给关键证据，同时压缩或丢弃次要线索。为此，我们提出了一种图引导的策略优化方法，该方法通过剪枝与冗余动作相关的记忆节点，将步骤级有效性与轨迹级奖励解耦，从而实现细粒度的信用分配。大量实验表明，VimRAG在多种多模态RAG基准测试中始终达到最先进的性能。

AI 推荐理由

论文聚焦于多模态信息的检索与推理，提出动态图结构建模推理过程，属于推理能力的核心研究。

研究机构

Tongyi Lab, Alibaba Group

论文信息

作者 Qiuchen Wang, Shihang Wang, Yu Zeng, Qiang Zhang, Fanrui Zhang et al.

发布日期 2026-02-13

arXiv ID 2602.12735