摘要
长时域多模态问答任务需要对文本、图像、音频和视频进行推理。尽管OmniLLMs取得了一定进展,但在低资源环境下,长音频视频问答仍面临密集编码成本高、细粒度检索能力弱、主动规划能力有限以及缺乏端到端优化等问题。为解决这些问题,本文提出OmniRAG-Agent,一种用于预算受限长音频视频推理的智能体多模态问答方法。该方法构建了一个图像-音频检索增强生成模块,使OmniLLM能够从外部存储库中获取相关片段和音频片段。此外,它使用一个智能体循环来规划、跨轮次调用工具并合并检索证据以回答复杂问题。进一步地,我们应用了组相对策略优化方法,以联合改进工具使用和答案质量。在OmniVideoBench、WorldSense和Daily-Omni数据集上的实验表明,OmniRAG-Agent在低资源设置下始终优于先前方法,并取得了良好的效果,消融实验验证了每个组件的有效性。
AI 推荐理由
论文涉及基于记忆的检索增强生成和多模态推理,但核心是Agent系统设计而非Memory机制本身。
论文信息