LLM VLA 机器人实验室 长时序任务 推理插件
摘要

机器人实验室在自主科学发现中起着关键作用,能够实现可扩展和持续的实验执行。最近的视觉-语言-动作(VLA)模型为机器人实验室提供了有前景的基础。然而,科学实验通常涉及由多个原子任务组成的长时序任务,这对现有的VLA模型构成了根本性挑战。虽然针对科学任务微调的VLA模型可以可靠地执行训练期间见过的原子实验操作,但它们往往无法执行由重新排序和组合这些已知原子操作形成的复合任务。这一限制源于训练时的原子任务与推理时的复合任务之间的分布不匹配,这阻碍了VLA模型在原子任务之间执行必要的过渡操作。为了解决这一挑战,我们提出了一种用于科学实验长时序任务的智能体VLA推理插件。该插件引入了一个基于LLM的智能体推理机制,在执行顺序操作任务时进行干预。通过显式过渡推理并生成过渡的机器人操作代码,该插件引导VLA模型完成缺失的过渡步骤,从而无需额外训练即可可靠地执行复合科学工作流程。这种仅依赖推理的干预方法使我们的方法在计算效率、数据效率方面表现优异,并适用于开放性和长时序的机器人实验室任务。我们在现有模拟环境中构建了科学仪器和常见科学操作场景的3D资产。在这些场景中,我们验证了我们的方法在推理过程中将每个原子任务的成功率平均提高了42%。此外,我们还展示了该方法可以轻松从模拟环境转移到实际科学实验室。

AI 推荐理由

论文涉及Agent在长时序任务中的推理插件,隐含对记忆机制的需求,但未直接研究Memory。

论文信息
作者 Yiwen Pang, Bo Zhou, Changjin Li, Xuanhao Wang, Shengxiang Xu et al.
发布日期 2026-02-10
arXiv ID 2602.09430
相关性评分 6/10 (相关)