摘要
多模态语境下的常识推理仍是人工智能的基础挑战。本文引入多模态反常识(MUN)基准,旨在评估模型处理偏离典型视觉或上下文预期场景的能力。MUN 将视觉场景与自然语言描述的意外结果配对,促使模型利用日常逻辑合理化看似奇异的图像,或在普通场景中发掘意外解读。为此,我们提出基于检索的上下文学习(R-ICL)框架,无需额外训练即可将大模型的推理能力迁移至小模型。该方法利用新型多模态集成检索器(MER),即使在图文对故意不一致时也能识别语义相关的示例。实验表明,该方法比基线 ICL 方法平均提升 8.3%,证明了 R-ICL 在低频、非典型设置中的有效性。
AI 推荐理由
论文核心聚焦多模态常识推理,提出基准与框架以评估和提升模型在非典型场景下的推理鲁棒性。
研究机构
首尔国立大学
论文信息