先看后答：基于充分性驱动强化学习的视觉证据预对齐

Multimodal LLM Visual Grounding Reinforcement Learning Reasoning Consistency

摘要

多模态大语言模型虽结合文本推理与视觉输入，但响应常与图像不一致，表明推理时视觉证据利用无效。现有范式依赖粗粒度标题预训练，导致视觉 grounding 薄弱。本文提出视觉证据预对齐（VEPA），作为预训练与后训练的中间阶段，利用基于充分性驱动的目标及组相对策略优化（GRPO），优化条件于问题的视觉证据描述。实验表明，VEPA 显著提升高视觉需求任务性能，其增益源于增强的可迁移视觉 grounding，而非特定任务训练。

AI 推荐理由

论文核心解决多模态推理中视觉证据利用不足问题，通过预对齐增强推理一致性。

研究机构

Beijing University of Posts and Telecommunications, China Nanyang Technological University, Singapore; China

论文信息

作者 Yilian Liu, Sicong Leng, Guoshun Nan, Junyi Zhu, Jiayu Huang et al.

发布日期 2026-06-16

arXiv ID 2606.17678