LongR：通过密集效用奖励的强化学习释放长上下文推理能力

强化学习长上下文推理文档咨询效用奖励

摘要

强化学习已成为提升大语言模型（LLM）推理能力的关键方法。在长上下文场景中，如长对话理解和结构化数据分析，挑战不仅在于处理大量token，还在于进行严谨的推理。现有研究多关注数据合成或架构改进，但仅依赖稀疏结果奖励的方法效果有限。为此，本文提出LongR框架，整合动态“思考-阅读”机制与基于相对信息增益的上下文密度奖励，以量化相关文档的效用。实验表明，LongR在LongBench v2上提升了9%，并在RULER和InfiniteBench上表现稳定，且适用于多种RL算法。此外，研究还深入分析了推理链长度对效率及模型抗干扰能力的影响。

AI 推荐理由

论文涉及长上下文推理与文档咨询机制，与Agent Memory相关但非唯一主题。

论文信息

作者 Bowen Ping, Zijun Chen, Yiyao Yu, Tingfeng Hui, Junchi Yan et al.

发布日期 2026-02-05

arXiv ID 2602.05758