摘要
多模态大语言模型虽结合文本推理与视觉输入,但响应常与图像不一致,表明推理时视觉证据利用无效。现有范式依赖粗粒度标题预训练,导致视觉 grounding 薄弱。本文提出视觉证据预对齐(VEPA),作为预训练与后训练的中间阶段,利用基于充分性驱动的目标及组相对策略优化(GRPO),优化条件于问题的视觉证据描述。实验表明,VEPA 显著提升高视觉需求任务性能,其增益源于增强的可迁移视觉 grounding,而非特定任务训练。
AI 推荐理由
论文核心解决多模态推理中视觉证据利用不足问题,通过预对齐增强推理一致性。
研究机构
Beijing University of Posts and Telecommunications, China
Nanyang Technological University, Singapore; China
论文信息