Visual Language Navigation Hierarchical Memory Zero-Shot Learning Embodied AI
摘要

视觉语言导航是具身智能的关键挑战,现有方法难以兼顾高成功率与强泛化能力。为此,本文提出“记忆 - 执行 - 回顾”框架,包含提供信息支持的分层记忆模块、负责常规决策的执行模块及处理异常的回顾模块。在四个数据集上的实验表明,该方法在无训练和零样本设置下,平均成功率显著优于基线。特别是在 HM3D_OVON 等挑战性数据集上,其表现不仅超越所有无训练方法,甚至优于监督微调方法,实现了成功率与泛化性的全面领先。

AI 推荐理由

论文提出分层记忆模块作为核心组件,直接解决导航中的信息支持与泛化问题。

研究机构
阿里云
论文信息
作者 Dekang Qi, Shuang Zeng, Xinyuan Chang, Feng Xiong, Shichao Xie et al.
发布日期 2026-02-05
arXiv ID 2602.05467
相关性评分 9/10 (高度相关)