SUSD：通过状态分解实现结构化无监督技能发现

Unsupervised Skill Discovery State Factorization Hierarchical Reinforcement Learning Representation Learning

摘要

无监督技能发现（USD）旨在无需外部奖励即可自主学习多样化技能。现有基于互信息的方法倾向于简单静态技能，而距离最大化方法虽促进动态技能但仍缺乏全面性。本文提出 SUSD 框架，通过将状态空间分解为独立组件（如物体或可控实体），为不同因子分配独立技能变量，实现细粒度控制。该方法引入动态模型自适应关注未充分探索的因子，不仅发现了更丰富多样的技能，还生成了因子化技能表示，支持对实体的解耦控制，便于通过分层强化学习高效训练组合下游任务。实验表明其在复杂环境中显著优于现有方法。

AI 推荐理由

论文提出无监督技能发现新框架，核心聚焦于技能的自主学习与结构化表示。

研究机构

沙里夫理工大学

论文信息

作者 Seyed Mohammad Hadi Hosseini, Mahdieh Soleymani Baghshah

发布日期 2026-02-02

arXiv ID 2602.01619