TangramSR：视觉语言模型能在连续几何空间中进行推理吗？

Vision-Language Models Geometric Reasoning Test-time Refinement Self-Improving AI

摘要

人类通过心理旋转和迭代修正擅长七巧板等空间推理任务。本文受此启发，发现现有视觉语言模型（VLM）在连续几何推理中存在系统性缺陷。为此，作者提出一种无需训练的测试时自我优化框架，结合上下文学习与奖励引导反馈循环，通过递归细化机制显著提升预测精度。实验表明，该方法在中等难度任务上将交并集（IoU）从 0.63 提升至 0.932，证明了引入人类认知机制可有效增强 VLM 的空间推理能力。

AI 推荐理由

论文核心研究 VLM 在连续几何空间中的推理能力及测试时自我优化机制。

研究机构

剑桥大学工程系前沿人工智能研究中心 A*STAR

论文信息

作者 Yikun Zong, Cheston Tan

发布日期 2026-02-05

arXiv ID 2602.05570