Agent Navigation Task Planning Vision-Language Model Dynamic Configuration
摘要

本文提出 Qwen-RobotNav,一种专为代理导航系统设计的可扩展模型。该模型通过参数化接口支持推理时外部重配置观察策略,涵盖多种任务模式及可控观察参数(如 token 预算、相机权重)。通过在 1560 万样本上训练并结合视觉 - 语言数据共训练,避免了纯轨迹训练导致的反应式映射崩溃。该模型作为代理系统的基础组件,允许上层规划器将长程目标分解为子任务,并在执行中动态切换任务模式与上下文策略,从而组合出复杂行为。实验表明其在主要导航基准上达到最先进水平,并展现出优异的零-shot 泛化能力。

AI 推荐理由

论文核心是导航模型,但明确作为上层规划器的执行模块,支持任务分解和动态模式切换,紧密服务于规划系统。

研究机构
Qwen
论文信息
作者 Jiazhao Zhang, Gengze Zhou, Hale Yin, Yiyang Huang, Zixing Lei et al.
发布日期 2026-06-16
arXiv ID 2606.18112
相关性评分 8/10 (高度相关)