摘要
尽管序列推理增强了视觉语言模型(VLM)执行复杂多模态任务的能力,但其将推理链锚定于实际视觉证据的可靠性尚未得到充分探索。本文提出 LogicGaze,一个新颖的基准框架,旨在严格检验 VLM 能否针对视觉输入验证序列因果链,特别针对普遍的幻觉问题。该框架整合了因果序列与视觉上矛盾但语言上合理的扰动,迫使模型验证每个推理步骤的真实性。我们的三重评估协议揭示了当前最先进 VLM 的显著漏洞,倡导构建稳健、可信的多模态推理系统。
AI 推荐理由
论文核心聚焦于视觉语言模型的因果推理一致性与反事实验证,直接评估推理可靠性。
研究机构
波士顿大学
萨福克大学
论文信息