摘要
可验证奖励强化学习(RLVR)已成为增强大语言模型(LLMs)能力(即长上下文处理)的重要范式。然而,它通常依赖于强大教师模型或人类专家提供的黄金标准答案或显式评估标准,这成本高昂且耗时。在本研究中,我们探讨了无监督方法来增强LLMs的长上下文能力,无需大量人工标注或教师模型的监督。具体而言,我们首先在长文档中替换几个段落为特殊占位符,并通过强化学习训练LLMs以正确识别并排序候选选项中的缺失段落以重建文档。这种训练范式使模型能够捕捉全局叙事连贯性,显著提升长上下文性能。我们在两个广泛使用的基准测试RULER和LongBench~v2上验证了该方法的有效性。尽管在RULER上取得了显著增益,它在不需要手动整理的长上下文问答数据的情况下也能在LongBench~v2上实现合理改进。此外,我们进行了广泛的消融实验,分析奖励设计、数据整理策略、训练方案和数据扩展效应对模型性能的影响。我们公开发布了我们的代码、数据和模型。
AI 推荐理由
论文涉及长上下文能力提升,与Agent Memory相关,但非核心主题。
论文信息