通过跨回合元强化学习扩展LLM的上下文在线学习能力

LLM 在线学习元强化学习 Agent Memory 上下文学习

摘要

大型语言模型（LLMs）在所有任务相关信息提前可用的情况下表现出色，如静态预测和指令遵循问题。然而，许多现实世界中的决策任务本质上是在线的：关键信息必须通过交互获取，反馈延迟，并且有效行为需要在时间上平衡信息收集和利用。尽管上下文学习使模型能够在不更新权重的情况下进行适应，但现有LLMs通常难以可靠地利用上下文交互经验。本文表明，这一限制可以通过训练来解决。我们引入了ORBIT，一个支持多任务、多回合的元强化学习框架，用于训练LLMs从上下文交互中学习。经过元训练后，一个相对较小的开源模型（Qwen3-14B）在完全未见过的环境中表现出显著改进的上下文在线学习能力，其性能可与GPT-5.2媲美，并大幅优于标准的强化学习微调方法。扩展实验进一步表明，随着模型规模增大，性能持续提升，表明推理时学习决策代理具有较大的提升空间。

AI 推荐理由

论文探讨了LLM在在线学习中的记忆利用问题，提出通过跨回合元强化学习提升其能力，与Agent Memory相关。

论文信息

作者 Xiaofeng Lin, Sirou Zhu, Yilei Chen, Mingyu Chen, Hejian Sang et al.

发布日期 2026-02-03

arXiv ID 2602.04089