摘要
广告视频的多模态理解对于解析视觉叙事与抽象说服策略之间的复杂关系至关重要。然而,尽管现有代理在一般搜索任务中表现出色,但在像素级感知与高层营销逻辑之间仍存在认知鸿沟。为解决这一问题,本文提出AD-MIR框架,采用两阶段架构解码广告意图。首先,在结构感知记忆构建阶段,系统通过语义检索与精确关键词匹配将原始视频转换为结构化数据库,优先提取细粒度品牌信息并动态过滤无关背景噪声。其次,结构化推理代理通过迭代查询循环模拟营销专家,分解叙事以推断隐含的说服策略,并采用基于证据的自我校正机制,严格验证这些洞察是否与特定视频帧一致。在AdsQA基准测试中,AD-MIR表现出色,超越了最强的通用代理DVD。结果表明,有效的广告理解需要将抽象的营销策略明确地扎根于像素级证据。
AI 推荐理由
论文提及了结构化记忆构建,但核心是广告理解与推理,非纯粹Memory研究。
论文信息