以漫画思考：通过结构化视觉叙事增强多模态推理

Multimodal Reasoning Chain-of-Thought Visual Storytelling Comics

摘要

思维链推理推动了大语言模型从文本思考扩展至图像和视频思考。然而，不同模态存在局限：静态图像难以表征时序结构，而视频则引入大量冗余和高计算成本。本文提出“以漫画思考”这一视觉推理范式，利用漫画作为介于图像与视频之间的高信息密度媒介。漫画在保留时序结构、嵌入文本及叙事连贯性的同时，显著降低了推理成本。研究系统探讨了两种基于漫画的推理路径，并在多种推理及长上下文理解任务中进行评估。实验表明，该方法在多步时序和因果推理任务上优于纯图像推理，且效率远高于视频推理。

AI 推荐理由

论文提出基于漫画的多模态推理新范式，核心解决时序与因果推理问题，显著提升推理效率。

研究机构

Harbin Institute of Technology

论文信息

作者 Andong Chen, Wenxin Zhu, Qiuyu Ding, Yuchen Song, Muyun Yang et al.

发布日期 2026-02-02

arXiv ID 2602.02453