当没有答案是正确时：诊断多模态大语言模型在视频理解中的缺失答案检测

Video Understanding Reliability Absent Answer Detection Temporal Reasoning

摘要

本文针对多模态大语言模型（MLLMs）在视频理解中的可靠性问题进行诊断研究，重点考察其在候选集中故意排除正确答案时的“缺失答案检测”能力。实验涵盖多选、开放生成及标准评估三种设置。结果显示，MLLMs 倾向于选择似是而非的干扰项而非识别答案缺失，该失败在时序推理任务中尤为显著。虽然思维链提示能提升检测率，但效果仍不理想，表明仅靠提示策略不足以解决此局限，亟需显式的检测机制。

AI 推荐理由

论文聚焦多模态模型在视频理解中的时序推理缺陷，评估其识别无正确答案的逻辑判断能力。

研究机构

Duke University, Durham, North Carolina, USA

论文信息

作者 Yiheng Wang, Yueqian Lin, Lichen Zhu, Yudong Liu, Hai "Helen" Li et al.

发布日期 2026-06-06

arXiv ID 2606.08239