Agent Memory 具身智能体 多模态大语言模型 语义记忆 情景记忆
摘要

将多模态大语言模型(MLLMs)部署为具身智能体的大脑仍面临挑战,尤其是在长期观察和有限上下文预算的情况下。现有基于记忆的方法通常依赖文本摘要,忽略了丰富的视觉和空间细节,并在非平稳环境中表现脆弱。本文提出了一种非参数化的记忆框架,明确区分情景记忆和语义记忆,用于具身探索和问答任务。该方法首先通过语义相似性检索情景经验,并通过视觉推理验证,从而实现无需严格几何对齐的过去观察的鲁棒重用。同时,我们引入一种程序式规则提取机制,将经验转化为结构化的、可复用的语义记忆,促进跨环境泛化。大量实验表明,在具身问答和探索基准测试中,我们的方法取得了最先进的性能,A-EQA上LLM-Match提升了7.3%,LLM MatchXSPL提升了11.4%,GOAT-Bench上的成功率和SPL分别提高了7.7%和6.8%。分析表明,情景记忆主要提升了探索效率,而语义记忆增强了具身智能体的复杂推理能力。

AI 推荐理由

论文核心聚焦于Agent Memory机制,提出非参数化记忆框架并区分情景记忆与语义记忆。

论文信息
作者 Ji Li, Jing Xia, Mingyi Li, Shiyan Hu
发布日期 2026-02-17
arXiv ID 2602.15513
相关性评分 9/10 (高度相关)