必要时聚焦：面向免训练视觉定位的自适应路由与协同接地

Visual Grounding Adaptive Routing MLLM Training-Free

摘要

针对多模态大语言模型在复杂高分辨率图像中难以感知细粒度细节的问题，本文提出 LazyMCoT，一种动态且免训练的框架。该框架依据样本难度自适应分配视觉定位努力：利用自适应路由机制评估预测不确定性，高效跳过简单案例并确保困难样本的召回；针对挑战性案例，通过协同接地模块结合模型内在注意力与外部视觉专家进行两阶段细化，以恢复微小或遮挡目标。实验表明，该方法在提升推理精度的同时降低了平均推理延迟，性能媲美基于训练的方法。

AI 推荐理由

论文核心在于提升多模态模型的细粒度感知与推理准确性，通过自适应路由优化推理过程。

研究机构

深圳国际研究生院，清华大学电子与计算机工程学院，北京大学数学与统计学院，University of Glasgow

论文信息

作者 Yifan Wang, Peiming Li, Shiyu Li, Zhiyuan Hu, Xiaochen Yang et al.

发布日期 2026-06-15

arXiv ID 2606.16158