Visual-Language Models Causal Reasoning Benchmark Hallucination Detection
摘要

尽管序列推理增强了视觉语言模型(VLM)执行复杂多模态任务的能力,但其将推理链锚定于实际视觉证据的可靠性尚未得到充分探索。本文提出 LogicGaze,一个新颖的基准框架,旨在严格检验 VLM 能否针对视觉输入验证序列因果链,特别针对普遍的幻觉问题。该框架整合了因果序列与视觉上矛盾但语言上合理的扰动,迫使模型验证每个推理步骤的真实性。我们的三重评估协议揭示了当前最先进 VLM 的显著漏洞,倡导构建稳健、可信的多模态推理系统。

AI 推荐理由

论文核心聚焦于视觉语言模型的因果推理一致性与反事实验证,直接评估推理可靠性。

研究机构
波士顿大学 萨福克大学
论文信息
作者 Rory Driscoll, Alexandros Christoforos, Chadbourne Davis
发布日期 2026-01-30
arXiv ID 2602.00292
相关性评分 9/10 (高度相关)