TimeBlind：面向视频大模型的时空组合性基准

Video LLM Temporal Reasoning Benchmark Spatio-Temporal Understanding

摘要

细粒度时空理解对视频推理与具身智能至关重要。尽管多模态大模型擅长静态语义，但其对时序动态的掌握依然脆弱。本文提出 TimeBlind，一个用于诊断组合性时空理解的基准。受认知科学启发，该基准将细粒度时序理解分为三个层级：识别原子事件、刻画事件属性及推理事件间依赖关系。不同于混淆识别与时序推理的现有基准，TimeBlind 采用最小配对范式：视频对共享相同静态视觉内容仅时序结构不同，并利用互补问题消除语言先验偏差。对 20 个最先进模型的评估显示，最佳模型实例准确率仅为 48.2%，远低于人类表现（98.2%），证明前沿模型严重依赖静态视觉捷径而非真正的时序逻辑。

AI 推荐理由

论文核心评估视频大模型的时序逻辑推理能力，揭示其依赖静态捷径而非真正推理。

研究机构

北卡罗来纳大学教堂山分校

论文信息

作者 Baiqi Li, Kangyi Zhao, Ce Zhang, Chancharik Mitra, Jean de Dieu Nyandwi et al.

发布日期 2026-01-30

arXiv ID 2602.00288