摘要
前沿模型正从单纯摄入视觉信息的多模态大语言模型转向支持原生交错生成的统一多模态模型。本研究提出 MentisOculi,一套分层的程序化多步推理测试集,旨在评估模型利用中间可视化(类似人类心理意象)进行目标导向推理的能力。实验发现,无论是潜在令牌还是显式生成图像,视觉策略均未能提升性能。分析表明,尽管统一多模态模型具备文本推理能力且能生成正确图像,但受限于累积生成错误,无法有效利用甚至真实的视觉辅助。研究结论指出,当前视觉思维尚未能惠及模型推理。
AI 推荐理由
论文核心评估视觉意象作为推理辅助的有效性,直接探讨多模态模型的推理能力局限。
研究机构
Max-Planck-Institut für Intelligente Systeme, 德国图宾根
论文信息