LogicGaze：通过反事实验证基准测试视觉叙事中的因果一致性

Visual-Language Models Causal Reasoning Benchmark Hallucination Detection

摘要

尽管序列推理增强了视觉语言模型（VLM）执行复杂多模态任务的能力，但其将推理链锚定于实际视觉证据的可靠性尚未得到充分探索。本文提出 LogicGaze，一个新颖的基准框架，旨在严格检验 VLM 能否针对视觉输入验证序列因果链，特别针对普遍的幻觉问题。该框架整合了因果序列与视觉上矛盾但语言上合理的扰动，迫使模型验证每个推理步骤的真实性。我们的三重评估协议揭示了当前最先进 VLM 的显著漏洞，倡导构建稳健、可信的多模态推理系统。

AI 推荐理由

论文核心聚焦于视觉语言模型的因果推理一致性与反事实验证，直接评估推理可靠性。

研究机构

波士顿大学萨福克大学

论文信息

作者 Rory Driscoll, Alexandros Christoforos, Chadbourne Davis

发布日期 2026-01-30

arXiv ID 2602.00292