摘要
强化学习已成为提升大语言模型(LLM)推理能力的关键方法。在长上下文场景中,如长对话理解和结构化数据分析,挑战不仅在于处理大量token,还在于进行严谨的推理。现有研究多关注数据合成或架构改进,但仅依赖稀疏结果奖励的方法效果有限。为此,本文提出LongR框架,整合动态“思考-阅读”机制与基于相对信息增益的上下文密度奖励,以量化相关文档的效用。实验表明,LongR在LongBench v2上提升了9%,并在RULER和InfiniteBench上表现稳定,且适用于多种RL算法。此外,研究还深入分析了推理链长度对效率及模型抗干扰能力的影响。
AI 推荐理由
论文涉及长上下文推理与文档咨询机制,与Agent Memory相关但非唯一主题。
论文信息