摘要
细粒度时空理解对视频推理与具身智能至关重要。尽管多模态大模型擅长静态语义,但其对时序动态的掌握依然脆弱。本文提出 TimeBlind,一个用于诊断组合性时空理解的基准。受认知科学启发,该基准将细粒度时序理解分为三个层级:识别原子事件、刻画事件属性及推理事件间依赖关系。不同于混淆识别与时序推理的现有基准,TimeBlind 采用最小配对范式:视频对共享相同静态视觉内容仅时序结构不同,并利用互补问题消除语言先验偏差。对 20 个最先进模型的评估显示,最佳模型实例准确率仅为 48.2%,远低于人类表现(98.2%),证明前沿模型严重依赖静态视觉捷径而非真正的时序逻辑。
AI 推荐理由
论文核心评估视频大模型的时序逻辑推理能力,揭示其依赖静态捷径而非真正推理。
研究机构
北卡罗来纳大学教堂山分校
论文信息