面向零样本事故理解的元数据感知多提示推理

Zero-Shot Learning Video Understanding Multi-Prompt Reasoning Vision-Language Models

摘要

本文针对监控视频事故的零样本理解问题，提出三阶段流水线，将任务分解为时间定位、语义分类与空间接地。首先利用视语相似度提取冲击时刻；其次执行元数据驱动的多提示推理，结合基线、运动、几何等五种互补视角，并通过熵门控成对裁决器解决分歧；最后基于预测类型进行开放词汇检测并聚合关键帧结果。该方法在 ACCIDENT@CVPR 基准上显著优于基线，证明分解策略能提升视语模型的推理可靠性。

AI 推荐理由

论文提出元数据驱动的多提示推理框架，通过多视角互补与仲裁机制解决事故理解中的推理分歧，核心在于提升推理可靠性。

研究机构

Netradyne

论文信息

作者 Tarandeep Singh, Soumyanetra Pal, Soham Biswas, Nishanth Chandran

发布日期 2026-06-10

arXiv ID 2606.12047