摘要
大型语言模型(LLM)和视觉 - 语言模型(VLM)的进展为增强强化学习中的样本效率、高层规划及可解释性提供了新机遇。尽管已有研究将 LLM 和 VLM 整合至强化学习的多个组件,但作为存储和复用经验核心的回放缓冲区仍未被探索。本文提出利用 VLM 指导回放缓冲区中的经验优先级排序。关键思想是使用冻结的预训练 VLM 作为自动评估器,识别并优先处理智能体经验中有希望的子轨迹。在游戏和机器人等离散及连续域场景中,该方法使智能体的平均成功率提高了 11%-52%,样本效率提升了 19%-45%。
AI 推荐理由
论文核心提出利用 VLM 指导经验回放缓冲区的优先级,直接优化智能体的记忆存储与复用机制。
研究机构
Technion - Israel Institute of Technology
论文信息