视觉会撒谎，一致性才发声：解耦视觉语言模型中的空间注意力与可靠性

Vision-Language Models Reliability Hallucination Detection Self-Consistency Attention Mechanism

摘要

多模态基础模型正日益作为推理代理使用，其可靠性及幻觉识别至关重要。本文挑战了“注意力即置信度”的直觉假设，通过 VLM 可靠性探针（VRP）系统研究了当代视觉语言模型中的可靠性信号。研究发现空间注意力与准确率几乎无关，而生成动态和内部状态分布才是可靠性的关键。自洽性（采样推理路径的一致性）是预测真实性的主导因素。此外，不同架构在因果干预下表现出显著的鲁棒性差异，表明可靠性信号已脱离视觉接地映射。

AI 推荐理由

论文聚焦多模态模型的推理可靠性与幻觉检测，虽非纯逻辑推理，但核心探讨推理过程中的可信度机制。

研究机构

University of California, Santa Barbara University of California, Berkeley Independent Researcher

论文信息

作者 Logan Mann, Yi Xia, Ajit Saravanan, Ishan Dave, Saadullah Ismail et al.

发布日期 2026-06-16

arXiv ID 2606.17389