Multimodal LLM Visual Reasoning Visual Imagery Cognitive Supersensing
摘要

多模态大语言模型在开放词汇感知任务中表现优异,但在处理需视觉记忆的抽象复杂认知问题时能力受限。现有方法主要扩展文本空间的思维链推理,忽视了类比人类视空间画板的视觉推理机制。为此,本文提出“认知超感知”训练范式,通过集成潜在视觉意象预测头,使模型具备类人视觉意象能力,形成基于视觉的内部推理链,并结合强化学习优化文本推理路径。实验表明,该方法在 CogSense-Bench 基准及跨领域数学科学任务中显著优于现有最先进模型,证明内部视觉意象是连接感知识别与认知理解的关键。

AI 推荐理由

提出认知超感知范式,通过潜在视觉意象预测构建基于视觉的内部推理链,核心解决复杂认知推理问题。

研究机构
伊利诺伊大学厄巴纳-香槟分校
论文信息
作者 Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu et al.
发布日期 2026-02-02
arXiv ID 2602.01541
相关性评分 9/10 (高度相关)