MLLM Cross-Modal Reasoning Named Entity Recognition Modality Bias
摘要

接地多模态命名实体识别旨在提取文本实体、分类并定位至视觉区域。本文探索多模态大语言模型端到端执行该任务的能力,发现其存在因单模态捷径导致的模态偏差问题。为此,提出模态感知一致性推理方法,通过多风格推理模式注入将抽象约束转化为可执行推理链,并利用约束引导的可验证优化动态对齐推理轨迹。实验表明,该方法有效缓解模态偏差,性能优于现有基线。

AI 推荐理由

论文核心提出跨模态一致性推理机制,解决多模态偏差,属推理能力研究。

研究机构
哈尔滨工业大学,深圳,中国 北京航空航天大学
论文信息
作者 Jinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang et al.
发布日期 2026-02-04
arXiv ID 2602.04486
相关性评分 9/10 (高度相关)