Visual Reasoning Tool Learning Reinforcement Learning Vision-Language Models
摘要

视觉检索增强生成(VRAG)通过引入外部视觉文档提升视觉语言模型(VLM)能力。现有框架多依赖预定义的刚性外部工具,且将感知与推理过程显式分离,导致图像裁剪等操作中视觉信息丢失。本文提出 Lang2Act,通过自涌现的语言工具链实现细粒度视觉感知与推理。该方法不调用固定外部引擎,而是收集自涌现动作作为语言工具以增强 VLM 感知能力。为此,我们设计了两阶段强化学习训练框架:第一阶段优化 VLM 自主探索高质量动作以构建可复用语言工具箱;第二阶段进一步优化 VLM 有效利用这些工具进行下游推理。实验表明,Lang2Act 显著提升了 VLM 的视觉感知能力,性能提升超过 4%。

AI 推荐理由

论文核心提出自涌现语言工具链机制,通过 RL 训练模型自主发现并利用视觉操作技能,属技能学习范畴。

研究机构
东北大学计算机科学与工程学院,中国沈阳 清华大学计算机科学与技术系,中国北京 阿里巴巴集团,中国杭州
论文信息
作者 Yuqi Xiong, Chunyi Peng, Zhipeng Xu, Zhenghao Liu, Zulong Chen et al.
发布日期 2026-01-29
arXiv ID 2602.13235
相关性评分 9/10 (高度相关)