摘要
搜索代理是能够通过推理和搜索知识库(或网络)来回答问题的语言模型;近期的方法仅使用可验证奖励的强化学习(RLVR)监督最终答案的准确性。大多数RLVR搜索代理处理的是通用领域的问答任务,这限制了它们在科学、工程和医学等技术AI系统中的相关性。本文提出训练代理在科学论文中进行搜索和推理,这测试了技术性问答能力,并且对真实科学家具有直接相关性,这些能力对未来AI科学家系统的构建至关重要。具体而言,我们发布了一个包含1600万篇生物医学论文摘要的搜索语料库,并构建了一个名为PaperSearchQA的具有挑战性的事实性问答数据集,包含6万个可以从语料库中找到答案的样本以及基准测试。我们在该环境中训练搜索代理以超越非RL检索基线;我们还进行了进一步的定量分析,观察到一些有趣的代理行为,如规划、推理和自我验证。我们的语料库、数据集和基准测试可以与流行的Search-R1代码库结合用于RLVR训练,并发布在https://huggingface.co/collections/jmhb/papersearchqa上。最后,我们的数据创建方法具有可扩展性,并且可以轻松扩展到其他科学领域。
AI 推荐理由
论文涉及基于记忆的搜索与推理,但未直接研究Agent Memory机制。
论文信息