理解环境感知信息检索的行为

RAG Reinforcement Learning Query Formulation Retriever Adaptation

摘要

近期检索增强生成（RAG）方法在处理复杂查询时表现优异，但现有研究忽视了一个关键挑战：不同检索器需要截然不同的查询构建策略以实现最佳性能。本文首次系统分析了大语言模型如何通过强化学习适应不同检索器的查询策略。实证研究表明，强化学习能有效教会模型针对特定检索器特征定制查询。研究发现不同检索器的最优查询风格差异显著，且引入特定指导及扩大模型规模可提升性能。此外，我们提出基于分支的展开技术以优化多步检索轨迹的训练稳定性。

AI 推荐理由

论文核心研究 Agent 如何通过 RL 学习适配不同检索器的查询构建技能，属于关键技能学习。

研究机构

Fudan University Alibaba DAMO Academy Chinese University of Hong Kong Stanford University Shanghai University of Finance and Economics

论文信息

作者 Ruifeng Yuan, Chaohao Yuan, David Dai, Yu Rong, Hong Cheng et al.

发布日期 2026-06-15

arXiv ID 2606.16817