self-improvement reinforcement learning sample efficiency
摘要

大型语言模型在非语言环境中表现受限,主因是高昂的探索成本。本文提出 SCOUT 框架,将探索与利用解耦:利用轻量级“侦察兵”快速探测环境动态,收集轨迹并通过监督微调和多轮强化学习引导大模型激活潜在世界知识。实验表明,该方法使 Qwen2.5-3B 在未见任务上显著优于专有模型,同时节省约 60% 算力。

AI 推荐理由

论文提出通过轻量级探索引导 LLM 微调与强化学习,实现自我改进以适应新任务。

研究机构
南洋理工大学
论文信息
作者 Haoyu Wang, Guozheng Ma, Shugang Cui, Yilun Kong, Haotian Luo et al.
发布日期 2026-01-29
arXiv ID 2601.21754
相关性评分 9/10 (高度相关)