超越单模态捷径：作为跨模态推理器的多模态大语言模型用于接地命名实体识别

MLLM Cross-Modal Reasoning Named Entity Recognition Modality Bias

摘要

接地多模态命名实体识别旨在提取文本实体、分类并定位至视觉区域。本文探索多模态大语言模型端到端执行该任务的能力，发现其存在因单模态捷径导致的模态偏差问题。为此，提出模态感知一致性推理方法，通过多风格推理模式注入将抽象约束转化为可执行推理链，并利用约束引导的可验证优化动态对齐推理轨迹。实验表明，该方法有效缓解模态偏差，性能优于现有基线。

AI 推荐理由

论文核心提出跨模态一致性推理机制，解决多模态偏差，属推理能力研究。

研究机构

哈尔滨工业大学，深圳，中国北京航空航天大学

论文信息

作者 Jinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang et al.

发布日期 2026-02-04

arXiv ID 2602.04486