摘要
电商对话系统需兼顾用户画像推理准确性与回复自然性。本文提出 MORE 框架,采用自适应多目标强化学习联合优化二者。针对混合奖励导致的学习不稳定问题,该方法将推理函数视为约束而非直接混合奖励,并在推理时隐式生成回复以降低开销。同时引入自适应多奖励机制,通过梯度反馈动态调整流畅度等指标权重。在字节跳动真实系统及 MultiWOZ 基准上的实验表明,该方法显著提升了转化率与用户满意度。
AI 推荐理由
论文核心在于优化用户画像推理准确性,将其作为约束指导策略,虽涉及多目标但推理是关键。
研究机构
ByteDance
Beijing, China
MBZUAI, ByteDance
Abu Dhabi, United Arab Emirates
论文信息