以自我为中心的感知者：通过帧实例化分离以目标为中心的推理与以自我为中心的视觉先验

Spatial Reasoning Vision-Language Models Allocentric Perception Geometric Grounding

摘要

针对视觉语言模型在以目标为中心的空间查询中表现脆弱的问题，本文提出“以目标为中心的感知者”方法。该策略无需训练，利用现成几何专家从图像恢复三维状态，并构建与指令语义对齐的参考帧。通过将重建几何确定性转换至目标帧并以结构化表示提示模型，该方法将心理旋转从隐式推理转化为显式计算。实验表明，其在保持自我中心性能的同时，显著提升了多基准下的空间推理能力。

AI 推荐理由

论文核心解决空间推理中的视角转换问题，通过显式计算替代隐式心理旋转，显著提升推理能力。

研究机构

中国科学院自动化研究所

论文信息

作者 Hengyi Wang, Ruiqiang Zhang, Chang Liu, Guanjie Wang, Zehua Ma et al.

发布日期 2026-02-05

arXiv ID 2602.05789