强化学习 长上下文推理 文档咨询 效用奖励
摘要

强化学习已成为提升大语言模型(LLM)推理能力的关键方法。在长上下文场景中,如长对话理解和结构化数据分析,挑战不仅在于处理大量token,还在于进行严谨的推理。现有研究多关注数据合成或架构改进,但仅依赖稀疏结果奖励的方法效果有限。为此,本文提出LongR框架,整合动态“思考-阅读”机制与基于相对信息增益的上下文密度奖励,以量化相关文档的效用。实验表明,LongR在LongBench v2上提升了9%,并在RULER和InfiniteBench上表现稳定,且适用于多种RL算法。此外,研究还深入分析了推理链长度对效率及模型抗干扰能力的影响。

AI 推荐理由

论文涉及长上下文推理与文档咨询机制,与Agent Memory相关但非唯一主题。

论文信息
作者 Bowen Ping, Zijun Chen, Yiyao Yu, Tingfeng Hui, Junchi Yan et al.
发布日期 2026-02-05
arXiv ID 2602.05758
相关性评分 7/10 (相关)