摘要
尽管大型语言模型(LLM)代理在通用任务中表现出色,但由于部署后权重固定,其在持续适应方面存在固有困难。传统强化学习(RL)虽能提供解决方案,但计算成本高昂且存在灾难性遗忘风险。本文提出了一种无需训练的即时强化学习(JitRL)框架,能够在测试时进行策略优化而无需任何梯度更新。JitRL维护一个动态的非参数经验记忆,并实时检索相关轨迹以估计动作优势。这些估计值用于直接调整LLM的输出logits。理论上证明,该加法更新规则是KL约束策略优化目标的确切闭式解。在WebArena和Jericho上的大量实验表明,JitRL在无训练方法中建立了新的最先进水平。关键的是,JitRL在性能上优于计算成本较高的微调方法(如WebRL),同时将成本降低了30倍以上,为持续学习代理提供了可扩展的路径。
AI 推荐理由
论文核心提出基于非参数记忆的JitRL框架,直接关联Agent Memory机制。
论文信息