超越单次检索：通过查询规划实现多步骤工具检索

LLM Agent 工具检索查询规划强化学习

摘要

在大规模、动态工具库上运行的LLM代理依赖于有效的检索方法，但标准的单次密集检索器难以处理复杂请求。这些失败主要源于抽象用户目标与技术文档之间的脱节，以及固定大小嵌入对组合工具构成的有限建模能力。为解决这些问题，我们提出了TOOLQP，一个轻量级框架，将检索建模为迭代查询规划。TOOLQP不采用单次匹配，而是将指令分解为子任务，并动态生成查询以与检索器交互，从而有效弥合语义差距并针对所需的具体子任务进行组合。我们通过合成查询轨迹训练TOOLQP，并通过可验证奖励强化学习（RLVR）进行优化。实验表明，TOOLQP在零样本泛化、跨多样检索器的鲁棒性以及下游代理执行方面均表现出色。

AI 推荐理由

论文涉及工具检索与查询规划，间接关联Agent Memory中的任务分解与信息检索机制。

论文信息

作者 Wei Fang, James Glass

发布日期 2026-01-12

arXiv ID 2601.07782