摘要
本文针对监控视频事故的零样本理解问题,提出三阶段流水线,将任务分解为时间定位、语义分类与空间接地。首先利用视语相似度提取冲击时刻;其次执行元数据驱动的多提示推理,结合基线、运动、几何等五种互补视角,并通过熵门控成对裁决器解决分歧;最后基于预测类型进行开放词汇检测并聚合关键帧结果。该方法在 ACCIDENT@CVPR 基准上显著优于基线,证明分解策略能提升视语模型的推理可靠性。
AI 推荐理由
论文提出元数据驱动的多提示推理框架,通过多视角互补与仲裁机制解决事故理解中的推理分歧,核心在于提升推理可靠性。
研究机构
Netradyne
论文信息