摘要
视觉与语言导航(VLN)要求智能体根据自然语言指令在未见过的环境中进行导航。近期方法越来越多地采用大语言模型(LLMs)作为高层导航器,因其灵活性和推理能力。然而,基于提示的LLM导航常因决策效率低下而受到限制,因为模型必须在每一步从头开始解释指令并处理冗余的导航候选。本文提出了一种检索增强框架,在不修改或微调底层语言模型的前提下,提升基于LLM的VLN的效率和稳定性。该方法在两个互补层次引入检索:在任务层面,使用指令级嵌入检索器选择语义相似的成功导航轨迹作为上下文示例;在步骤层面,使用模仿学习的候选检索器在LLM推理前剪枝无关的导航方向,减少动作歧义和提示复杂度。两种检索模块均轻量、模块化且独立于LLM训练。我们在Room-to-Room(R2R)基准上评估了该方法,实验结果表明在已见和未见环境中成功率、Oracle成功率和SPL均有显著提升。消融研究进一步表明,指令级示例检索和候选剪枝分别对全局引导和步骤级决策效率提供了互补性贡献。这些结果表明,检索增强的决策支持是提升基于LLM的视觉与语言导航的有效且可扩展策略。
AI 推荐理由
论文通过检索机制增强LLM导航效率,涉及记忆相关的内容,但非唯一主题。
论文信息