摘要
当前视觉语言导航方法在语义理解与控制精度间存在权衡。多模态大模型虽具强推理力,但作为底层控制器时因几何接地弱导致高延迟和轨迹振荡。为此,本文提出 Fly0 框架,将语义推理与几何规划解耦。该方法通过三阶段流程:利用多模态大模型将指令接地为二维坐标,结合深度数据定位三维目标,最后由几何规划器生成无碰撞轨迹。实验表明,Fly0 在非结构化环境中成功率提升超 20%,导航误差降低约 50%。
AI 推荐理由
论文核心提出几何规划模块,将语义与规划解耦以生成无碰撞轨迹,属规划机制研究。
研究机构
中国科学院自动化研究所
论文信息