摘要
构建能通过组合现有技能执行新技能的智能体是 AI 研究的长期目标。为此,本文研究了如何高效获取形式化为分层神经选项的技能序列。针对现有无模型分层强化算法数据需求大的问题,我们提出了一种名为 AgentOWL 的新方法,该方法以样本高效的方式联合学习抽象世界模型(跨越状态和时间抽象)与一组分层神经选项。在部分以对象为中心的 Atari 游戏子集上的实验表明,相比基线方法,我们的方法能用更少的数据学习到更多的技能。
AI 推荐理由
论文核心研究如何通过组合现有技能获取新技能,提出分层神经选项学习,属技能学习核心。
研究机构
Google DeepMind
论文信息