Agent Memory Vision-Language Model Dynamic World Modeling Robotic Planning Manufacturing Automation
摘要

视觉语言模型(VLM)在智能制造中的高层规划中展现出潜力,但其在动态工作单元中的部署面临两个关键挑战:(1)无状态操作,无法持续跟踪视野外的状态,导致世界状态漂移;(2)推理不透明,故障难以诊断,导致代价高昂的盲目重试。本文提出了VLM-DEWM,一种认知架构,通过可持久化、可查询的动态外部世界模型(DEWM)将VLM推理与世界状态管理解耦。每个VLM决策被结构化为一个可外部化的推理轨迹(ERT),包括动作建议、世界信念和因果假设,并在执行前与DEWM进行验证。当发生故障时,预测状态与观测状态之间的差异分析能够实现针对性恢复,而非全局重新规划。我们在多工位装配、大规模设施探索和真实机器人恢复任务中评估了VLM-DEWM。与基线记忆增强型VLM系统相比,VLM-DEWM将状态跟踪准确率从56%提升至93%,恢复成功率从低于5%提升至95%,并通过结构化记忆显著降低了计算开销。这些结果确立了VLM-DEWM作为动态制造环境中长期机器人操作的可验证且鲁棒的解决方案。

AI 推荐理由

论文核心提出动态外部世界模型(DEWM)作为记忆系统,用于解决VLM在制造环境中的状态跟踪与恢复问题。

论文信息
作者 Guoqin Tang, Qingxuan Jia, Gang Chen, Tong Li, Zeyuan Huang et al.
发布日期 2026-02-17
arXiv ID 2602.15549
相关性评分 9/10 (高度相关)