SPOT-E：基于视觉聚光灯的冻结视觉语言模型测试时熵塑造

VLM Test-Time Training Visual Grounding Entropy Shaping

摘要

视觉语言模型在证据密集型任务中常因关键视觉证据微小且易被忽略而表现不佳，导致即使高层推理完整也无法正确读取证据。现有测试时视觉干预方法多为开环，缺乏验证机制。本文提出利用答案跨度预测熵作为内部反馈信号，指出朴素熵最小化的歧义性，并引入低熵锚点与熵塑造目标，在降低不确定性的同时保留高置信度 token。提出的 SPOT-E 方法即插即用，基于组相对策略优化（GRPO）进行轻量级实例优化，生成问题条件的视觉聚光灯。实验表明该方法在多个基准和模型家族上均取得一致增益及更强的抗干扰鲁棒性。

AI 推荐理由

论文通过优化视觉证据定位解决推理中的证据读取失败问题，显著提升推理鲁棒性。

研究机构

National University of Singapore Fudan University Technical University of Munich Sagene Tech Zhejiang University

论文信息

作者 Bo Yin, Xiaobin Hu, Chengming Xu, Ruolin Shen, Mo Yang et al.

发布日期 2026-06-18

arXiv ID 2606.20244