Multimodal LLM Visual Grounding Reinforcement Learning Reasoning Consistency
摘要

多模态大语言模型虽结合文本推理与视觉输入,但响应常与图像不一致,表明推理时视觉证据利用无效。现有范式依赖粗粒度标题预训练,导致视觉 grounding 薄弱。本文提出视觉证据预对齐(VEPA),作为预训练与后训练的中间阶段,利用基于充分性驱动的目标及组相对策略优化(GRPO),优化条件于问题的视觉证据描述。实验表明,VEPA 显著提升高视觉需求任务性能,其增益源于增强的可迁移视觉 grounding,而非特定任务训练。

AI 推荐理由

论文核心解决多模态推理中视觉证据利用不足问题,通过预对齐增强推理一致性。

研究机构
Beijing University of Posts and Telecommunications, China Nanyang Technological University, Singapore; China
论文信息
作者 Yilian Liu, Sicong Leng, Guoshun Nan, Junyi Zhu, Jiayu Huang et al.
发布日期 2026-06-16
arXiv ID 2606.17678
相关性评分 8/10 (高度相关)