多轮对话生成 工具使用 用户模拟 人机交互
摘要

随着大型推理模型(LRMs)作为自主代理的范式转变,对复杂、多轮工具使用能力的需求日益增加。然而,现有数据集和生成方法受限于静态预定义工具集,难以满足开放性人机协作的复杂性需求。为此,我们开发了一个自动化任务导向的多轮对话生成框架,利用基于LRM的模拟器动态生成高价值、领域特定的工具以解决指定任务。然而,纯粹的任务导向设计往往导致“仅解决问题”的轨迹,即代理以最少交互完成目标,无法生成现实中常见的高轮次对话。为弥补这一差距,我们转向用户导向的模拟范式,通过将任务生成与模拟人类行为规则的专用用户模拟器解耦,如逐步提出请求和逐轮反馈,从而生成更真实、更长的多轮对话,反映现实问题解决的迭代特性。我们的生成流程作为一个多功能、即插即用模块,能够从任何状态启动生成,确保在生成扩展工具使用数据时具有高度可扩展性。此外,通过在一个轨迹中实现多个任务完成,它产生了一个高密度数据集,反映了现实世界中人机交互的多方面需求。

AI 推荐理由

论文涉及多轮对话生成与工具使用,隐含对记忆机制的需求,但未直接研究Agent Memory。

论文信息
作者 Jungho Cho, Minbyul Jeong, Sungrae Park
发布日期 2026-01-13
arXiv ID 2601.08225
相关性评分 5/10 (一般相关)