Multimodal LLM Hallucination Chain-of-Thought Benchmark Reasoning Evaluation
摘要

多模态大语言模型(MLLMs)已从非思考模式转向具备复杂问题解决能力的后训练推理模型。然而,这种“思考”过程能否有效缓解多模态感知与推理中的幻觉尚不明确。自我反思虽增强鲁棒性,却可能引入新幻觉,细微感知错误仍导致答案错误。现有基准忽视推理过程中的内部思维及伴随幻觉。为此,本文提出 MM-THEBench,这是一个基于认知维度细粒度分类、包含验证标注数据及多级自动评估框架的综合基准,旨在评估推理型 MLLM 中间思维链的幻觉问题,揭示思考对多模态任务中幻觉与推理能力的影响。

AI 推荐理由

论文核心评估推理 MLLM 的思维链幻觉,直接针对推理过程的可靠性与机制。

研究机构
中国科学院
论文信息
作者 Zhidian Huang, Zijun Yao, Ji Qi, Shangqing Tu, Junxian Ma et al.
发布日期 2026-01-30
arXiv ID 2601.22735
相关性评分 9/10 (高度相关)