MerNav：一种高度通用的记忆-执行-复审框架用于零样本目标导航

Agent Memory Visual Navigation Zero-Shot Learning Hierarchical Memory Generalization

摘要

视觉语言导航（VLN）是具身智能的基本能力之一，也是亟需解决的关键挑战。然而，现有方法在成功率（SR）和泛化能力方面仍不理想：监督微调（SFT）方法通常具有更高的SR，而训练无关（TF）方法往往泛化能力更强，但难以同时实现两者。为此，我们提出了一种记忆-执行-复审框架。该框架包含三个部分：一个分层记忆模块用于提供信息支持，一个执行模块用于常规决策和行动，以及一个复审模块用于处理异常情况并纠正行为。我们在目标导航任务上验证了该框架的有效性。在4个数据集上，我们的平均SR在TF和零样本（ZS）设置下分别比所有基线方法提高了7%和5%。在最常用的数据集HM3D_v0.1和更具挑战性的开放词汇数据集HM3D_OVON上，在ZS设置下SR分别提升了8%和6%。此外，在MP3D和HM3D_OVON数据集上，我们的方法不仅优于所有TF方法，还超越了所有SFT方法，在SR（5%和2%）和泛化能力方面均取得全面领先。

AI 推荐理由

论文标题和摘要明确提到Memory模块，且框架核心围绕Memory-Execute-Review展开，是Agent Memory机制的核心研究。

论文信息

作者 Dekang Qi, Shuang Zeng, Xinyuan Chang, Feng Xiong, Shichao Xie et al.

发布日期 2026-02-05

arXiv ID 2602.05467