MM-THEBench：推理型多模态大模型的思考是否合理？

Multimodal LLM Hallucination Chain-of-Thought Benchmark Reasoning Evaluation

摘要

多模态大语言模型（MLLMs）已从非思考模式转向具备复杂问题解决能力的后训练推理模型。然而，这种“思考”过程能否有效缓解多模态感知与推理中的幻觉尚不明确。自我反思虽增强鲁棒性，却可能引入新幻觉，细微感知错误仍导致答案错误。现有基准忽视推理过程中的内部思维及伴随幻觉。为此，本文提出 MM-THEBench，这是一个基于认知维度细粒度分类、包含验证标注数据及多级自动评估框架的综合基准，旨在评估推理型 MLLM 中间思维链的幻觉问题，揭示思考对多模态任务中幻觉与推理能力的影响。

AI 推荐理由

论文核心评估推理 MLLM 的思维链幻觉，直接针对推理过程的可靠性与机制。

研究机构

中国科学院

论文信息

作者 Zhidian Huang, Zijun Yao, Ji Qi, Shangqing Tu, Junxian Ma et al.

发布日期 2026-01-30

arXiv ID 2601.22735