摘要
视觉语言导航是具身智能的关键挑战,现有方法难以兼顾高成功率与强泛化能力。为此,本文提出“记忆 - 执行 - 回顾”框架,包含提供信息支持的分层记忆模块、负责常规决策的执行模块及处理异常的回顾模块。在四个数据集上的实验表明,该方法在无训练和零样本设置下,平均成功率显著优于基线。特别是在 HM3D_OVON 等挑战性数据集上,其表现不仅超越所有无训练方法,甚至优于监督微调方法,实现了成功率与泛化性的全面领先。
AI 推荐理由
论文提出分层记忆模块作为核心组件,直接解决导航中的信息支持与泛化问题。
研究机构
阿里云
论文信息