摘要
接地多模态命名实体识别旨在提取文本实体、分类并定位至视觉区域。本文探索多模态大语言模型端到端执行该任务的能力,发现其存在因单模态捷径导致的模态偏差问题。为此,提出模态感知一致性推理方法,通过多风格推理模式注入将抽象约束转化为可执行推理链,并利用约束引导的可验证优化动态对齐推理轨迹。实验表明,该方法有效缓解模态偏差,性能优于现有基线。
AI 推荐理由
论文核心提出跨模态一致性推理机制,解决多模态偏差,属推理能力研究。
研究机构
哈尔滨工业大学,深圳,中国
北京航空航天大学
论文信息