Unsupervised Skill Discovery State Factorization Hierarchical Reinforcement Learning Representation Learning
摘要

无监督技能发现(USD)旨在无需外部奖励即可自主学习多样化技能。现有基于互信息的方法倾向于简单静态技能,而距离最大化方法虽促进动态技能但仍缺乏全面性。本文提出 SUSD 框架,通过将状态空间分解为独立组件(如物体或可控实体),为不同因子分配独立技能变量,实现细粒度控制。该方法引入动态模型自适应关注未充分探索的因子,不仅发现了更丰富多样的技能,还生成了因子化技能表示,支持对实体的解耦控制,便于通过分层强化学习高效训练组合下游任务。实验表明其在复杂环境中显著优于现有方法。

AI 推荐理由

论文提出无监督技能发现新框架,核心聚焦于技能的自主学习与结构化表示。

研究机构
沙里夫理工大学
论文信息
作者 Seyed Mohammad Hadi Hosseini, Mahdieh Soleymani Baghshah
发布日期 2026-02-02
arXiv ID 2602.01619
相关性评分 9/10 (高度相关)