摘要
视觉检索增强生成(VRAG)通过引入外部视觉文档提升视觉语言模型(VLM)能力。现有框架多依赖预定义的刚性外部工具,且将感知与推理过程显式分离,导致图像裁剪等操作中视觉信息丢失。本文提出 Lang2Act,通过自涌现的语言工具链实现细粒度视觉感知与推理。该方法不调用固定外部引擎,而是收集自涌现动作作为语言工具以增强 VLM 感知能力。为此,我们设计了两阶段强化学习训练框架:第一阶段优化 VLM 自主探索高质量动作以构建可复用语言工具箱;第二阶段进一步优化 VLM 有效利用这些工具进行下游推理。实验表明,Lang2Act 显著提升了 VLM 的视觉感知能力,性能提升超过 4%。
AI 推荐理由
论文核心提出自涌现语言工具链机制,通过 RL 训练模型自主发现并利用视觉操作技能,属技能学习范畴。
研究机构
东北大学计算机科学与工程学院,中国沈阳
清华大学计算机科学与技术系,中国北京
阿里巴巴集团,中国杭州
论文信息