LLM Agent 工具检索 查询规划 强化学习
摘要

在大规模、动态工具库上运行的LLM代理依赖于有效的检索方法,但标准的单次密集检索器难以处理复杂请求。这些失败主要源于抽象用户目标与技术文档之间的脱节,以及固定大小嵌入对组合工具构成的有限建模能力。为解决这些问题,我们提出了TOOLQP,一个轻量级框架,将检索建模为迭代查询规划。TOOLQP不采用单次匹配,而是将指令分解为子任务,并动态生成查询以与检索器交互,从而有效弥合语义差距并针对所需的具体子任务进行组合。我们通过合成查询轨迹训练TOOLQP,并通过可验证奖励强化学习(RLVR)进行优化。实验表明,TOOLQP在零样本泛化、跨多样检索器的鲁棒性以及下游代理执行方面均表现出色。

AI 推荐理由

论文涉及工具检索与查询规划,间接关联Agent Memory中的任务分解与信息检索机制。

论文信息
作者 Wei Fang, James Glass
发布日期 2026-01-12
arXiv ID 2601.07782
相关性评分 7/10 (相关)