摘要
超高分辨率(UHR)遥感的多模态推理通常受限于视觉证据的获取:模型需要在庞大的像素空间中定位微小的任务相关区域。尽管使用放大工具的智能体强化学习与可验证奖励(RLVR)提供了一种解决方案,但我们发现标准强化学习在没有结构化领域先验的情况下难以导航这些庞大的视觉空间。本文研究了后训练范式之间的相互作用,比较了冷启动监督微调(SFT)、RLVR和智能体RLVR在UHR遥感基准上的表现。受控研究表明,高质量的地球科学文本问答是推动UHR视觉推理提升的主要因素。尽管缺乏图像,特定领域的文本可以注入指导视觉证据检索所需的概念、机制解释和决策规则。基于此,我们提出了一种分阶段的知识注入方法:(1)通过可扩展且知识图谱验证的地球科学文本问答进行冷启动,以建立推理结构;(2)在SFT阶段使用相同的困难UHR图文示例进行“预热”,以稳定并增强后续基于工具的强化学习。该方法在XLRS-Bench上实现了60.40%的Pass@1,显著优于更大的通用模型(如GPT-5.2、Gemini 3.0 Pro、Intern-S1),并建立了新的最先进水平。
AI 推荐理由
论文探讨了知识注入对Agent在视觉推理中的作用,涉及记忆机制的应用。
论文信息