摘要
元强化学习通过提取相关任务的共享结构实现快速适应,但现有端到端方法常将任务推断与特定具身控制耦合,限制了跨智能体复用。本文提出一种元知识复用框架,在简化动力学代理上学习任务级知识并迁移至异构代理。该框架利用贝叶斯非参数先验组织潜在任务模式,并通过高层策略生成任务级幅度指导。引入语义 - 幅度接口和轻量级时间适配器,将冻结的元知识转化为时间对齐的子目标,供特定具身的底层控制器使用。实验表明,该方法显著降低跟踪误差并大幅提升样本效率。
AI 推荐理由
论文聚焦元强化学习中的快速适应与知识迁移,属于 Agent 自我进化与自适应核心范畴。
研究机构
中国科学院自动化研究所
中国科学院大学
美国麻省理工学院
德国慕尼黑工业大学
论文信息