摘要
大型语言模型(LLMs)在所有任务相关信息提前可用的情况下表现出色,如静态预测和指令遵循问题。然而,许多现实世界中的决策任务本质上是在线的:关键信息必须通过交互获取,反馈延迟,并且有效行为需要在时间上平衡信息收集和利用。尽管上下文学习使模型能够在不更新权重的情况下进行适应,但现有LLMs通常难以可靠地利用上下文交互经验。本文表明,这一限制可以通过训练来解决。我们引入了ORBIT,一个支持多任务、多回合的元强化学习框架,用于训练LLMs从上下文交互中学习。经过元训练后,一个相对较小的开源模型(Qwen3-14B)在完全未见过的环境中表现出显著改进的上下文在线学习能力,其性能可与GPT-5.2媲美,并大幅优于标准的强化学习微调方法。扩展实验进一步表明,随着模型规模增大,性能持续提升,表明推理时学习决策代理具有较大的提升空间。
AI 推荐理由
论文探讨了LLM在在线学习中的记忆利用问题,提出通过跨回合元强化学习提升其能力,与Agent Memory相关。
论文信息