地理定位 强化学习 思维链 一致性奖励 Agent推理
摘要

本文提出GeoAgent,一种能够与人类紧密推理并得出精细地址结论的模型。尽管基于强化学习的方法在性能和可解释性方面取得了突破,但其对AI生成的思维链(CoT)数据和训练策略的依赖仍存在与地理特征冲突的问题。为解决这些问题,我们首先引入了GeoSeek,一个由地理专家和专业玩家标注的包含CoT数据的新地理定位数据集。我们进一步深入探讨了地理任务的固有特性,并提出了一种地理相似性奖励和由一致性代理评估的一致性奖励,以辅助训练。这促使模型从地理角度收敛到正确答案,同时确保其推理过程的完整性和一致性。实验结果表明,GeoAgent在多个粒度上优于现有方法和一系列通用大语言模型,且生成的推理过程与人类高度一致。

AI 推荐理由

论文涉及Agent的推理过程和一致性,与记忆相关但非核心主题。

论文信息
作者 Modi Jin, Yiming Zhang, Boyuan Sun, Dingwen Zhang, MingMing Cheng et al.
发布日期 2026-02-13
arXiv ID 2602.12617
相关性评分 5/10 (一般相关)