摘要
针对具身智能体在开放世界中的终身学习需求,本文提出 CRL-VLA 框架,旨在解决持续强化学习中稳定性(保留旧技能)与可塑性(学习新技能)的权衡难题。该框架通过理论推导建立了性能边界,并采用不对称调节机制:利用双评论家架构和新型目标条件价值公式,冻结评论家以锚定语义一致性,训练估计器以驱动适应。实验表明,该方法在抗遗忘和前向适应方面均优于基线,有效协调了冲突目标。
AI 推荐理由
论文核心解决持续学习中的稳定性 - 可塑性权衡,实现智能体技能的自我进化与自适应。
研究机构
中国科学院自动化研究所
论文信息