GeoRC：地理定位推理链基准

Vision Language Models Reasoning Chains Geolocation Hallucination Benchmark

摘要

视觉语言模型（VLMs）虽能精准预测照片的全球位置，但其生成的推理解释常存在幻觉，无法准确指出支撑预测的图像证据。本文提出了首个地理定位推理链基准，聚焦 GeoGuessr 游戏中的全球定位任务。通过与专家玩家合作，构建了包含 500 个场景的 800 条真实推理链，涵盖车牌、建筑等细粒度视觉属性。评估显示，尽管闭源大模型预测准确，但在生成可审计的推理链方面仍落后于人类；开源模型表现更差，严重依赖幻觉而非视觉信息。

AI 推荐理由

论文聚焦视觉语言模型在地定位任务中的推理链生成与幻觉问题，构建基准评估其逻辑解释能力。

研究机构

佐治亚理工学院

论文信息

作者 Mohit Talreja, Joshua Diao, Jim Thannikary James, Radu Casapu, Tejas Santanam et al.

发布日期 2026-01-29

arXiv ID 2601.21278