Video Understanding Reliability Absent Answer Detection Temporal Reasoning
摘要

本文针对多模态大语言模型(MLLMs)在视频理解中的可靠性问题进行诊断研究,重点考察其在候选集中故意排除正确答案时的“缺失答案检测”能力。实验涵盖多选、开放生成及标准评估三种设置。结果显示,MLLMs 倾向于选择似是而非的干扰项而非识别答案缺失,该失败在时序推理任务中尤为显著。虽然思维链提示能提升检测率,但效果仍不理想,表明仅靠提示策略不足以解决此局限,亟需显式的检测机制。

AI 推荐理由

论文聚焦多模态模型在视频理解中的时序推理缺陷,评估其识别无正确答案的逻辑判断能力。

研究机构
Duke University, Durham, North Carolina, USA
论文信息
作者 Yiheng Wang, Yueqian Lin, Lichen Zhu, Yudong Liu, Hai "Helen" Li et al.
发布日期 2026-06-06
arXiv ID 2606.08239
相关性评分 8/10 (高度相关)