VLM 引导的经验回放

Experience Replay Vision-Language Models Reinforcement Learning Memory Mechanism

摘要

大型语言模型（LLM）和视觉 - 语言模型（VLM）的进展为增强强化学习中的样本效率、高层规划及可解释性提供了新机遇。尽管已有研究将 LLM 和 VLM 整合至强化学习的多个组件，但作为存储和复用经验核心的回放缓冲区仍未被探索。本文提出利用 VLM 指导回放缓冲区中的经验优先级排序。关键思想是使用冻结的预训练 VLM 作为自动评估器，识别并优先处理智能体经验中有希望的子轨迹。在游戏和机器人等离散及连续域场景中，该方法使智能体的平均成功率提高了 11%-52%，样本效率提升了 19%-45%。

AI 推荐理由

论文核心提出利用 VLM 指导经验回放缓冲区的优先级，直接优化智能体的记忆存储与复用机制。

研究机构

Technion - Israel Institute of Technology

论文信息

作者 Elad Sharony, Tom Jurgenson, Orr Krupnik, Dotan Di Castro, Shie Mannor

发布日期 2026-02-02

arXiv ID 2602.01915