答案源自何处？基准测试自动驾驶多视图 MLLM 中的视图级视觉证据识别

多模态大语言模型视觉证据识别自动驾驶基准测试 grounding 评估

摘要

多模态大语言模型在视觉推理基准上表现优异，但仅凭答案准确率无法判断其是否依赖正确的视觉证据。这在自动驾驶的多视图场景中尤为关键，模型可能基于错误摄像头视图得出看似合理的答案。本文提出一个多视图视觉问答基准，要求模型在给定六个同步 NuScenes 视图和问题时，识别支持性摄像头视图并作答。该基准包含来自 73 个场景的 122 组以冲突为核心的问答对，涵盖因果性、反事实推理及意图预测。通过显式分离视觉源识别与答案正确性，该基准揭示了仅评估答案所遗漏的接地失败问题。

AI 推荐理由

论文聚焦多视图视觉证据识别与因果推理，评估模型 grounding 能力，属推理范畴。

研究机构

University of Waterloo

论文信息

作者 Yimu Wang, Yee Man Choi, Barry Zhang, Mozhgan Nasr Azadani, Sean Sedwards et al.

发布日期 2026-06-08

arXiv ID 2606.09644