摘要
在大规模、动态工具库上运行的LLM代理依赖于有效的检索方法,但标准的单次密集检索器难以处理复杂请求。这些失败主要源于抽象用户目标与技术文档之间的脱节,以及固定大小嵌入对组合工具构成的有限建模能力。为解决这些问题,我们提出了TOOLQP,一个轻量级框架,将检索建模为迭代查询规划。TOOLQP不采用单次匹配,而是将指令分解为子任务,并动态生成查询以与检索器交互,从而有效弥合语义差距并针对所需的具体子任务进行组合。我们通过合成查询轨迹训练TOOLQP,并通过可验证奖励强化学习(RLVR)进行优化。实验表明,TOOLQP在零样本泛化、跨多样检索器的鲁棒性以及下游代理执行方面均表现出色。
AI 推荐理由
论文涉及工具检索与查询规划,间接关联Agent Memory中的任务分解与信息检索机制。
论文信息