摘要
本文提出了一种以记忆为中心的系统SpatialMem,将三维几何、语义和语言统一为可查询的表示形式。该系统从随意捕获的第一人称RGB视频开始,重建出符合度量尺度的室内环境,并检测结构化的三维锚点(如墙壁、门、窗)作为第一层框架,同时构建一个分层记忆系统,其中包含开放词汇的对象节点,将证据片段、视觉嵌入和双层文本描述链接到三维坐标中,实现紧凑存储和快速检索。这一设计支持对空间关系(如距离、方向、可见性)的可解释推理,并支持无需专用传感器的语言引导导航和对象检索任务。实验表明,在三种真实室内场景中,即使在杂乱和遮挡增加的情况下,SpatialMem仍能保持较高的锚点-描述级导航完成率和分层检索准确性,提供了一个高效且可扩展的具身空间智能框架。
AI 推荐理由
论文核心围绕SpatialMem记忆系统,统一3D几何、语义和语言,强调记忆存储与检索机制。
论文信息