迈向多模态大语言模型的认知超感知

Multimodal LLM Visual Reasoning Visual Imagery Cognitive Supersensing

摘要

多模态大语言模型在开放词汇感知任务中表现优异，但在处理需视觉记忆的抽象复杂认知问题时能力受限。现有方法主要扩展文本空间的思维链推理，忽视了类比人类视空间画板的视觉推理机制。为此，本文提出“认知超感知”训练范式，通过集成潜在视觉意象预测头，使模型具备类人视觉意象能力，形成基于视觉的内部推理链，并结合强化学习优化文本推理路径。实验表明，该方法在 CogSense-Bench 基准及跨领域数学科学任务中显著优于现有最先进模型，证明内部视觉意象是连接感知识别与认知理解的关键。

AI 推荐理由

提出认知超感知范式，通过潜在视觉意象预测构建基于视觉的内部推理链，核心解决复杂认知推理问题。

研究机构

伊利诺伊大学厄巴纳-香槟分校

论文信息

作者 Boyi Li, Yifan Shen, Yuanzhe Liu, Yifan Xu, Jiateng Liu et al.

发布日期 2026-02-02

arXiv ID 2602.01541