摘要
本文介绍了KLong,一个开源的LLM代理,专门用于解决极端长时序任务。其原理是首先通过轨迹分割的监督微调(SFT)进行冷启动,然后通过渐进式强化学习(RL)进行扩展。具体而言,我们首先使用全面的SFT方案激活基础模型的基本代理能力。随后,我们引入Research-Factory,一个自动化流程,通过收集研究论文和构建评估标准生成高质量的训练数据。利用该流程,我们构建了数千条从Claude 4.5 Sonnet(Thinking)中提炼出的长时序轨迹。为了使用这些极端长时序轨迹进行训练,我们提出了一种新的轨迹分割SFT方法,保留早期上下文,逐步截断后期上下文,并保持子轨迹之间的重叠。此外,为了进一步提升长时序任务解决能力,我们提出了一种新颖的渐进式RL方法,将训练分为多个阶段,逐步延长超时时间。实验表明,KLong在性能和泛化能力上表现出色,如图1所示。值得注意的是,我们提出的KLong(106B)在PaperBench上超越了Kimi K2 Thinking(1T)11.28%,且性能提升也推广到了其他编码基准测试如SWE-bench Verified和MLE-bench。
AI 推荐理由
论文涉及长时序任务处理,与Agent Memory相关,但非核心研究主题。
论文信息