摘要
数据不完整性严重阻碍了多模态系统的可靠性。现有的重建方法面临不同的瓶颈:传统的参数化/生成模型由于过度依赖内部记忆而容易产生幻觉,而检索增强框架则存在检索僵硬的问题。关键的是,这些端到端架构受到语义细节纠缠的结构性限制——逻辑推理与信号合成之间的冲突损害了保真度。本文提出了一种名为OMG-Agent的新框架,该框架将范式从静态映射转变为动态的粗到细智能体工作流。通过模仿“深思熟虑后行动”的认知过程,OMG-Agent显式地将任务分解为三个协同阶段:(1)由MLLM驱动的语义规划器,通过渐进上下文推理解决输入歧义,创建确定性的结构化语义计划;(2)非参数化的证据检索器,将抽象语义锚定在外部知识上;(3)检索注入执行器,利用检索到的证据作为灵活的特征提示,克服僵硬性并合成高保真细节。在多个基准上的大量实验表明,OMG-Agent始终优于最先进的方法,并在极端缺失情况下保持鲁棒性,例如在CMU-MOSI数据集上缺失率70%时提升了2.6个百分点。
AI 推荐理由
论文涉及Agent Memory相关机制,如内部记忆依赖与检索增强框架的对比,但核心是多模态生成。
论文信息