多模态反常识：从奇异到平凡，从平凡到奇异

Multimodal Reasoning Commonsense AI In-Context Learning Benchmark

摘要

多模态语境下的常识推理仍是人工智能的基础挑战。本文引入多模态反常识（MUN）基准，旨在评估模型处理偏离典型视觉或上下文预期场景的能力。MUN 将视觉场景与自然语言描述的意外结果配对，促使模型利用日常逻辑合理化看似奇异的图像，或在普通场景中发掘意外解读。为此，我们提出基于检索的上下文学习（R-ICL）框架，无需额外训练即可将大模型的推理能力迁移至小模型。该方法利用新型多模态集成检索器（MER），即使在图文对故意不一致时也能识别语义相关的示例。实验表明，该方法比基线 ICL 方法平均提升 8.3%，证明了 R-ICL 在低频、非典型设置中的有效性。

AI 推荐理由

论文核心聚焦多模态常识推理，提出基准与框架以评估和提升模型在非典型场景下的推理鲁棒性。

研究机构

首尔国立大学

论文信息

作者 Yejin Son, Saejin Kim, Dongjun Min, Younjae Yu

发布日期 2026-02-02

arXiv ID 2602.01561