Vision-Language Models Geometric Reasoning Test-time Refinement Self-Improving AI
摘要

人类通过心理旋转和迭代修正擅长七巧板等空间推理任务。本文受此启发,发现现有视觉语言模型(VLM)在连续几何推理中存在系统性缺陷。为此,作者提出一种无需训练的测试时自我优化框架,结合上下文学习与奖励引导反馈循环,通过递归细化机制显著提升预测精度。实验表明,该方法在中等难度任务上将交并集(IoU)从 0.63 提升至 0.932,证明了引入人类认知机制可有效增强 VLM 的空间推理能力。

AI 推荐理由

论文核心研究 VLM 在连续几何空间中的推理能力及测试时自我优化机制。

研究机构
剑桥大学工程系 前沿人工智能研究中心 A*STAR
论文信息
作者 Yikun Zong, Cheston Tan
发布日期 2026-02-05
arXiv ID 2602.05570
相关性评分 9/10 (高度相关)