摘要
大型语言模型正在从通用知识引擎向现实问题求解器转变,但在深度搜索任务上的优化仍具挑战性。主要瓶颈在于高质量搜索轨迹和奖励信号的极端稀疏性,这源于可扩展长时域任务构建的困难以及外部工具调用带来的高交互成本。为解决这些问题,我们提出了REDSearcher,一个统一的框架,联合设计复杂任务合成、中期训练和后期训练以实现可扩展的搜索代理优化。具体而言,REDSearcher引入了以下改进:(1)我们将任务合成视为双约束优化问题,通过图拓扑和证据分布精确控制任务难度,从而生成复杂且高质量的任务。(2)我们引入工具增强查询,鼓励主动使用工具而非被动回忆。(3)在中期训练中,我们显著增强了核心原子能力,包括知识、规划和函数调用,大幅降低了收集高质量轨迹的成本。(4)我们构建了一个本地模拟环境,支持快速、低成本的强化学习算法迭代。在文本和多模态搜索代理基准测试中,我们的方法均达到最先进水平。为促进未来对长时域搜索代理的研究,我们将发布10K条高质量复杂文本搜索轨迹、5K条多模态轨迹和1K条文本强化学习查询集,并提供代码和模型检查点。
AI 推荐理由
论文涉及搜索代理的长期任务优化,与记忆机制相关但非核心主题。
论文信息