摘要
小型大语言模型在代理能力上常难以匹敌大型模型。针对现有开源代理训练数据任务单一及真实 API 不稳定的瓶颈,本文提出 SYNTHAGENT 框架。该框架联合合成多样化的工具使用训练数据并模拟完整环境:由强教师模型生成新颖任务与工具生态,并重写为故意未明确指定的指令,迫使代理主动查询缺失细节;同时利用 LLM 用户模拟器提供私有信息,_mock_ 工具系统确保响应稳定。基于子目标和交互行为的量表奖励机制进一步提升了训练效果。实验表明,在该合成数据上训练的模型在数学、搜索及工具使用等任务中表现优异,小模型甚至超越了更大的基线模型。
AI 推荐理由
论文核心在于通过合成数据训练小模型掌握工具使用技能,解决现有数据狭窄问题。
研究机构
中国科学技术大学
论文信息