摘要
本文针对多模态大语言模型(MLLMs)在视频理解中的可靠性问题进行诊断研究,重点考察其在候选集中故意排除正确答案时的“缺失答案检测”能力。实验涵盖多选、开放生成及标准评估三种设置。结果显示,MLLMs 倾向于选择似是而非的干扰项而非识别答案缺失,该失败在时序推理任务中尤为显著。虽然思维链提示能提升检测率,但效果仍不理想,表明仅靠提示策略不足以解决此局限,亟需显式的检测机制。
AI 推荐理由
论文聚焦多模态模型在视频理解中的时序推理缺陷,评估其识别无正确答案的逻辑判断能力。
研究机构
Duke University, Durham, North Carolina, USA
论文信息