Lang2Act：通过自涌现语言工具链实现细粒度视觉推理

Visual Reasoning Tool Learning Reinforcement Learning Vision-Language Models

摘要

视觉检索增强生成（VRAG）通过引入外部视觉文档提升视觉语言模型（VLM）能力。现有框架多依赖预定义的刚性外部工具，且将感知与推理过程显式分离，导致图像裁剪等操作中视觉信息丢失。本文提出 Lang2Act，通过自涌现的语言工具链实现细粒度视觉感知与推理。该方法不调用固定外部引擎，而是收集自涌现动作作为语言工具以增强 VLM 感知能力。为此，我们设计了两阶段强化学习训练框架：第一阶段优化 VLM 自主探索高质量动作以构建可复用语言工具箱；第二阶段进一步优化 VLM 有效利用这些工具进行下游推理。实验表明，Lang2Act 显著提升了 VLM 的视觉感知能力，性能提升超过 4%。

AI 推荐理由

论文核心提出自涌现语言工具链机制，通过 RL 训练模型自主发现并利用视觉操作技能，属技能学习范畴。

研究机构

东北大学计算机科学与工程学院，中国沈阳清华大学计算机科学与技术系，中国北京阿里巴巴集团，中国杭州

论文信息

作者 Yuqi Xiong, Chunyi Peng, Zhipeng Xu, Zhenghao Liu, Zulong Chen et al.

发布日期 2026-01-29

arXiv ID 2602.13235