Agent Memory Visual Navigation Zero-Shot Learning Hierarchical Memory Generalization
摘要

视觉语言导航(VLN)是具身智能的基本能力之一,也是亟需解决的关键挑战。然而,现有方法在成功率(SR)和泛化能力方面仍不理想:监督微调(SFT)方法通常具有更高的SR,而训练无关(TF)方法往往泛化能力更强,但难以同时实现两者。为此,我们提出了一种记忆-执行-复审框架。该框架包含三个部分:一个分层记忆模块用于提供信息支持,一个执行模块用于常规决策和行动,以及一个复审模块用于处理异常情况并纠正行为。我们在目标导航任务上验证了该框架的有效性。在4个数据集上,我们的平均SR在TF和零样本(ZS)设置下分别比所有基线方法提高了7%和5%。在最常用的数据集HM3D_v0.1和更具挑战性的开放词汇数据集HM3D_OVON上,在ZS设置下SR分别提升了8%和6%。此外,在MP3D和HM3D_OVON数据集上,我们的方法不仅优于所有TF方法,还超越了所有SFT方法,在SR(5%和2%)和泛化能力方面均取得全面领先。

AI 推荐理由

论文标题和摘要明确提到Memory模块,且框架核心围绕Memory-Execute-Review展开,是Agent Memory机制的核心研究。

论文信息
作者 Dekang Qi, Shuang Zeng, Xinyuan Chang, Feng Xiong, Shichao Xie et al.
发布日期 2026-02-05
arXiv ID 2602.05467
相关性评分 9/10 (高度相关)