多模态模型 空间推理 视角转换 认知启发 Agent Memory
摘要

多模态语言模型(MLMs)在语义视觉-语言任务中表现良好,但在需要采用其他代理视觉视角的空间推理任务中表现不佳。这些错误反映了持续的自我中心偏差,并引发了关于当前模型是否支持外在视角推理的问题。受人类空间认知的启发,我们引入了视角标记,这些专门的嵌入通过(1)具身身体关键点提示或(2)支持心理旋转的抽象表示来编码方向。将这些标记集成到LLaVA-1.5-13B中,在二级视觉视角任务中取得了性能提升。在合成和自然基准测试(Isle Bricks V2、COCO、3DSRBench)中,视角标记提高了准确性,基于旋转的标记可推广到非人类参考代理。代表性分析表明,微调增强了基础模型中已有的潜在方向敏感性,表明MLMs包含外在视角推理的前身,但缺乏适当的内部结构。总体而言,直接在标记空间中嵌入认知基础的空间结构,为视角转换和更接近人类的空间推理提供了一种轻量级、模型无关的机制。

AI 推荐理由

论文探讨了多模态模型中的视角转换问题,涉及空间认知和记忆机制,与Agent Memory相关但非唯一主题。

论文信息
作者 Bridget Leonard, Scott O. Murray
发布日期 2026-01-23
arXiv ID 2601.16378
相关性评分 7/10 (相关)