Meta-RL In-Context Learning Online Decision Making Self-Adaptation
摘要

大语言模型在静态任务中表现优异,但在需交互获取信息的在线决策场景中常难以有效利用上下文经验。本文提出 ORBIT,一种多任务、多剧集的元强化学习框架,旨在训练 LLM 从上下文的交互反馈中学习。经元训练后,较小的开源模型(Qwen3-14B)在未见环境中展现出显著的在线学习能力提升,性能媲美 GPT-5.2 并大幅超越标准 RL 微调。实验表明该能力随模型规模扩展而增强,为推理时可学习的决策 Agent 提供了广阔前景。

AI 推荐理由

论文核心研究通过元强化学习实现 Agent 在上下文中的在线自我进化与适应,属于自我改进机制。

研究机构
波士顿大学,马萨诸塞州波士顿 领英,加利福尼亚州桑尼维尔
论文信息
作者 Xiaofeng Lin, Sirou Zhu, Yilei Chen, Mingyu Chen, Hejian Sang et al.
发布日期 2026-02-03
arXiv ID 2602.04089
相关性评分 9/10 (高度相关)