元强化学习中的知识复用

Meta-Reinforcement Learning Knowledge Transfer Adaptation Heterogeneous Agents

摘要

元强化学习通过提取相关任务的共享结构实现快速适应，但现有端到端方法常将任务推断与特定具身控制耦合，限制了跨智能体复用。本文提出一种元知识复用框架，在简化动力学代理上学习任务级知识并迁移至异构代理。该框架利用贝叶斯非参数先验组织潜在任务模式，并通过高层策略生成任务级幅度指导。引入语义 - 幅度接口和轻量级时间适配器，将冻结的元知识转化为时间对齐的子目标，供特定具身的底层控制器使用。实验表明，该方法显著降低跟踪误差并大幅提升样本效率。

AI 推荐理由

论文聚焦元强化学习中的快速适应与知识迁移，属于 Agent 自我进化与自适应核心范畴。

研究机构

中国科学院自动化研究所中国科学院大学美国麻省理工学院德国慕尼黑工业大学

论文信息

作者 Yuan Meng, Bo Wang, Juan de los Rios Ruiz, Xiangtong Yao, Zhenshan Bing et al.

发布日期 2026-06-16

arXiv ID 2606.18132