摘要
长视频理解对视觉-语言模型提出了重大挑战,因为其需要处理极长的上下文窗口。现有方法通常依赖于简单的分块策略与检索增强生成,但容易导致信息碎片化和全局一致性丢失。本文提出HAVEN框架,通过整合视听实体一致性、分层视频索引与代理搜索机制,实现连贯且全面的推理。首先,通过跨视觉和听觉流的实体级表示保持语义一致性,并将内容组织为涵盖全局摘要、场景、片段和实体级别的结构化层次。然后,采用代理搜索机制在这些层级之间进行动态检索与推理,促进连贯的叙事重建和细粒度实体跟踪。大量实验表明,该方法在时间一致性、实体一致性和检索效率方面表现优异,在LVBench数据集上达到84.1%的整体准确率,并在具有挑战性的推理类别中达到80.1%。
AI 推荐理由
论文涉及基于记忆的代理搜索机制,用于长视频理解,但非唯一核心主题。
论文信息