摘要
大型语言模型在开放域对话中表现出色,但在服务对话中表现欠佳,主要受限于数据稀缺和难以模拟真实目标导向用户行为。为此,本文提出SEAD(自进化服务对话智能体),一种无需大规模人工标注即可学习有效策略的框架。SEAD将用户建模分解为两个部分:一个用于生成多样化用户状态以管理训练课程的Profile Controller,以及一个专注于现实角色扮演的User Role-play Model。该设计确保环境提供适应性训练场景而非不公平对抗。实验表明,SEAD显著优于开源基础模型和闭源商业模型,在任务完成率和对话效率上分别提升了17.6%和11.1%。
AI 推荐理由
论文涉及Agent在多轮服务对话中的学习策略,但未明确讨论Memory机制。
论文信息