摘要
尽管多模态大语言模型(MLLMs)取得了快速进展,但在正确答案依赖于未见过或替代视角下场景外观的情况下,视觉空间推理仍然不可靠。近期的研究通过引入世界模型增强推理能力以解决这一问题,但关于何时需要想象、多少想象是有益的以及何时想象会带来负面影响的问题仍不明确。在实际应用中,无差别地使用想象可能会增加计算量并引入误导性证据从而降低性能。本文对测试时的视觉想象作为可控资源进行了深入分析,研究静态视觉证据是否足够、想象如何提升推理以及过度或不必要的想象如何影响准确性和效率。为支持该分析,我们引入了AVIC框架,该框架在选择性调用和扩展视觉想象之前,显式推理当前视觉证据的充分性。实验结果表明,在多个空间推理基准(SAT、MMSI)和具身导航基准(R2R)上,想象在某些情况下是关键的、边际的或有害的,并且选择性控制可以在显著减少世界模型调用和语言标记的情况下匹配甚至优于固定想象策略。总体而言,我们的研究强调了分析和控制测试时想象对于实现高效可靠的空间推理的重要性。
AI 推荐理由
论文探讨了测试时视觉想象的可控性,与Agent Memory中的资源管理及选择性调用相关。
论文信息