虚拟世界，真实技能：利用合成任务、模拟环境和基于量表的奖励构建小型代理语言模型

Small LLM Tool Use Synthetic Data Reinforcement Learning Agent Simulation

摘要

小型大语言模型在代理能力上常难以匹敌大型模型。针对现有开源代理训练数据任务单一及真实 API 不稳定的瓶颈，本文提出 SYNTHAGENT 框架。该框架联合合成多样化的工具使用训练数据并模拟完整环境：由强教师模型生成新颖任务与工具生态，并重写为故意未明确指定的指令，迫使代理主动查询缺失细节；同时利用 LLM 用户模拟器提供私有信息，_mock_ 工具系统确保响应稳定。基于子目标和交互行为的量表奖励机制进一步提升了训练效果。实验表明，在该合成数据上训练的模型在数学、搜索及工具使用等任务中表现优异，小模型甚至超越了更大的基线模型。

AI 推荐理由

论文核心在于通过合成数据训练小模型掌握工具使用技能，解决现有数据狭窄问题。

研究机构

中国科学技术大学

论文信息

作者 Yuanjie Lyu, Chengyu Wang, Lei Shen, Jun Huang, Tong Xu

发布日期 2026-01-30

arXiv ID 2601.22511