Small LLM Tool Use Synthetic Data Reinforcement Learning Agent Simulation
摘要

小型大语言模型在代理能力上常难以匹敌大型模型。针对现有开源代理训练数据任务单一及真实 API 不稳定的瓶颈,本文提出 SYNTHAGENT 框架。该框架联合合成多样化的工具使用训练数据并模拟完整环境:由强教师模型生成新颖任务与工具生态,并重写为故意未明确指定的指令,迫使代理主动查询缺失细节;同时利用 LLM 用户模拟器提供私有信息,_mock_ 工具系统确保响应稳定。基于子目标和交互行为的量表奖励机制进一步提升了训练效果。实验表明,在该合成数据上训练的模型在数学、搜索及工具使用等任务中表现优异,小模型甚至超越了更大的基线模型。

AI 推荐理由

论文核心在于通过合成数据训练小模型掌握工具使用技能,解决现有数据狭窄问题。

研究机构
中国科学技术大学
论文信息
作者 Yuanjie Lyu, Chengyu Wang, Lei Shen, Jun Huang, Tong Xu
发布日期 2026-01-30
arXiv ID 2601.22511
相关性评分 9/10 (高度相关)