Multimodal Reasoning Chain-of-Thought Visual Storytelling Comics
摘要

思维链推理推动了大语言模型从文本思考扩展至图像和视频思考。然而,不同模态存在局限:静态图像难以表征时序结构,而视频则引入大量冗余和高计算成本。本文提出“以漫画思考”这一视觉推理范式,利用漫画作为介于图像与视频之间的高信息密度媒介。漫画在保留时序结构、嵌入文本及叙事连贯性的同时,显著降低了推理成本。研究系统探讨了两种基于漫画的推理路径,并在多种推理及长上下文理解任务中进行评估。实验表明,该方法在多步时序和因果推理任务上优于纯图像推理,且效率远高于视频推理。

AI 推荐理由

论文提出基于漫画的多模态推理新范式,核心解决时序与因果推理问题,显著提升推理效率。

研究机构
Harbin Institute of Technology
论文信息
作者 Andong Chen, Wenxin Zhu, Qiuyu Ding, Yuchen Song, Muyun Yang et al.
发布日期 2026-02-02
arXiv ID 2602.02453
相关性评分 9/10 (高度相关)