分层神经选项与抽象世界模型的联合学习

Hierarchical Reinforcement Learning Skill Acquisition World Model Sample Efficiency

摘要

构建能通过组合现有技能执行新技能的智能体是 AI 研究的长期目标。为此，本文研究了如何高效获取形式化为分层神经选项的技能序列。针对现有无模型分层强化算法数据需求大的问题，我们提出了一种名为 AgentOWL 的新方法，该方法以样本高效的方式联合学习抽象世界模型（跨越状态和时间抽象）与一组分层神经选项。在部分以对象为中心的 Atari 游戏子集上的实验表明，相比基线方法，我们的方法能用更少的数据学习到更多的技能。

AI 推荐理由

论文核心研究如何通过组合现有技能获取新技能，提出分层神经选项学习，属技能学习核心。

研究机构

Google DeepMind

论文信息

作者 Wasu Top Piriyakulkij, Wolfgang Lehrach, Kevin Ellis, Kevin Murphy

发布日期 2026-02-02

arXiv ID 2602.02799