Meta-Reinforcement Learning Knowledge Transfer Adaptation Heterogeneous Agents
摘要

元强化学习通过提取相关任务的共享结构实现快速适应,但现有端到端方法常将任务推断与特定具身控制耦合,限制了跨智能体复用。本文提出一种元知识复用框架,在简化动力学代理上学习任务级知识并迁移至异构代理。该框架利用贝叶斯非参数先验组织潜在任务模式,并通过高层策略生成任务级幅度指导。引入语义 - 幅度接口和轻量级时间适配器,将冻结的元知识转化为时间对齐的子目标,供特定具身的底层控制器使用。实验表明,该方法显著降低跟踪误差并大幅提升样本效率。

AI 推荐理由

论文聚焦元强化学习中的快速适应与知识迁移,属于 Agent 自我进化与自适应核心范畴。

研究机构
中国科学院自动化研究所 中国科学院大学 美国麻省理工学院 德国慕尼黑工业大学
论文信息
作者 Yuan Meng, Bo Wang, Juan de los Rios Ruiz, Xiangtong Yao, Zhenshan Bing et al.
发布日期 2026-06-16
arXiv ID 2606.18132
相关性评分 8/10 (高度相关)