摘要
视觉语言模型(VLMs)虽能精准预测照片的全球位置,但其生成的推理解释常存在幻觉,无法准确指出支撑预测的图像证据。本文提出了首个地理定位推理链基准,聚焦 GeoGuessr 游戏中的全球定位任务。通过与专家玩家合作,构建了包含 500 个场景的 800 条真实推理链,涵盖车牌、建筑等细粒度视觉属性。评估显示,尽管闭源大模型预测准确,但在生成可审计的推理链方面仍落后于人类;开源模型表现更差,严重依赖幻觉而非视觉信息。
AI 推荐理由
论文聚焦视觉语言模型在地定位任务中的推理链生成与幻觉问题,构建基准评估其逻辑解释能力。
研究机构
佐治亚理工学院
论文信息