摘要
多模态大语言模型在视觉推理基准上表现优异,但仅凭答案准确率无法判断其是否依赖正确的视觉证据。这在自动驾驶的多视图场景中尤为关键,模型可能基于错误摄像头视图得出看似合理的答案。本文提出一个多视图视觉问答基准,要求模型在给定六个同步 NuScenes 视图和问题时,识别支持性摄像头视图并作答。该基准包含来自 73 个场景的 122 组以冲突为核心的问答对,涵盖因果性、反事实推理及意图预测。通过显式分离视觉源识别与答案正确性,该基准揭示了仅评估答案所遗漏的接地失败问题。
AI 推荐理由
论文聚焦多视图视觉证据识别与因果推理,评估模型 grounding 能力,属推理范畴。
研究机构
University of Waterloo
论文信息