LLM 工具使用 强化学习 环境交互 泛化能力
摘要

为大型语言模型(LLMs)配备外部工具使其能够解决复杂的现实问题。然而,现有方法在面对新出现或不断变化的工具时,其鲁棒性仍是一个关键挑战。现有的轨迹中心范式主要依赖于在训练过程中记忆静态解决方案路径,这限制了LLMs将工具使用推广到新引入或之前未见过的工具的能力。本文提出ToolMaster框架,该框架将工具使用从模仿黄金工具调用轨迹转变为通过与环境的交互主动学习工具使用。为了优化LLMs的工具规划和调用能力,ToolMaster采用了一种试错与执行的范式,首先让LLMs模仿教师生成的包含显式工具尝试和自我纠正的轨迹,随后通过强化学习协调试错与执行阶段。这一过程使代理能够通过与环境的主动交互自主探索正确的工具使用方式,并形成有益于工具执行的经验知识。实验结果表明,ToolMaster在泛化性和鲁棒性方面显著优于现有基线方法。

AI 推荐理由

论文涉及LLM通过环境交互学习工具使用,隐含记忆机制,但非核心主题。

论文信息
作者 Xingjie Gao, Pengcheng Huang, Zhenghao Liu, Yukun Yan, Shuo Wang et al.
发布日期 2026-01-19
arXiv ID 2601.12762
相关性评分 7/10 (相关)