Experience Replay Vision-Language Models Reinforcement Learning Memory Mechanism
摘要

大型语言模型(LLM)和视觉 - 语言模型(VLM)的进展为增强强化学习中的样本效率、高层规划及可解释性提供了新机遇。尽管已有研究将 LLM 和 VLM 整合至强化学习的多个组件,但作为存储和复用经验核心的回放缓冲区仍未被探索。本文提出利用 VLM 指导回放缓冲区中的经验优先级排序。关键思想是使用冻结的预训练 VLM 作为自动评估器,识别并优先处理智能体经验中有希望的子轨迹。在游戏和机器人等离散及连续域场景中,该方法使智能体的平均成功率提高了 11%-52%,样本效率提升了 19%-45%。

AI 推荐理由

论文核心提出利用 VLM 指导经验回放缓冲区的优先级,直接优化智能体的记忆存储与复用机制。

研究机构
Technion - Israel Institute of Technology
论文信息
作者 Elad Sharony, Tom Jurgenson, Orr Krupnik, Dotan Di Castro, Shie Mannor
发布日期 2026-02-02
arXiv ID 2602.01915
相关性评分 9/10 (高度相关)