摘要
多模态大语言模型在开放词汇感知任务中表现优异,但在处理需视觉记忆的抽象复杂认知问题时能力受限。现有方法主要扩展文本空间的思维链推理,忽视了类比人类视空间画板的视觉推理机制。为此,本文提出“认知超感知”训练范式,通过集成潜在视觉意象预测头,使模型具备类人视觉意象能力,形成基于视觉的内部推理链,并结合强化学习优化文本推理路径。实验表明,该方法在 CogSense-Bench 基准及跨领域数学科学任务中显著优于现有最先进模型,证明内部视觉意象是连接感知识别与认知理解的关键。
AI 推荐理由
提出认知超感知范式,通过潜在视觉意象预测构建基于视觉的内部推理链,核心解决复杂认知推理问题。
研究机构
伊利诺伊大学厄巴纳-香槟分校
论文信息