Spatial Reasoning Vision-Language Models Allocentric Perception Geometric Grounding
摘要

针对视觉语言模型在以目标为中心的空间查询中表现脆弱的问题,本文提出“以目标为中心的感知者”方法。该策略无需训练,利用现成几何专家从图像恢复三维状态,并构建与指令语义对齐的参考帧。通过将重建几何确定性转换至目标帧并以结构化表示提示模型,该方法将心理旋转从隐式推理转化为显式计算。实验表明,其在保持自我中心性能的同时,显著提升了多基准下的空间推理能力。

AI 推荐理由

论文核心解决空间推理中的视角转换问题,通过显式计算替代隐式心理旋转,显著提升推理能力。

研究机构
中国科学院自动化研究所
论文信息
作者 Hengyi Wang, Ruiqiang Zhang, Chang Liu, Guanjie Wang, Zehua Ma et al.
发布日期 2026-02-05
arXiv ID 2602.05789
相关性评分 9/10 (高度相关)