摘要
大型视觉-语言模型(LVLMs)在地理定位任务中表现出强大的推理能力,但在现实场景中常因视觉线索稀疏、长尾分布和高度模糊而表现不佳。以往方法受限于内部知识,难以提供可验证的结果,面对混淆证据时容易产生自信但无依据的预测。为解决这些问题,本文提出SpotAgent框架,将地理定位形式化为一种智能体推理过程,结合专家级推理与工具辅助验证。SpotAgent通过ReAct图式利用外部工具(如网络搜索、地图)主动探索并验证视觉线索。研究引入了一个三阶段的后训练流程,包括监督微调(SFT)以实现基本对齐,随后通过多智能体框架合成高质量轨迹进行智能体冷启动阶段,以培养工具调用能力,最后通过强化学习优化推理能力。此外,提出了一种空间感知动态过滤策略,通过优先选择空间难度较高的样本来提升强化学习阶段的效率。在标准基准上的大量实验表明,SpotAgent实现了最先进的性能,有效缓解了幻觉问题,并提供了精确且可验证的地理定位。
AI 推荐理由
论文涉及基于外部工具的验证机制,与Agent Memory相关,但非核心主题。
论文信息