Reinforcement Learning Dialogue Systems Multi-Objective Optimization E-commerce
摘要

电商对话系统需兼顾用户画像推理准确性与回复自然性。本文提出 MORE 框架,采用自适应多目标强化学习联合优化二者。针对混合奖励导致的学习不稳定问题,该方法将推理函数视为约束而非直接混合奖励,并在推理时隐式生成回复以降低开销。同时引入自适应多奖励机制,通过梯度反馈动态调整流畅度等指标权重。在字节跳动真实系统及 MultiWOZ 基准上的实验表明,该方法显著提升了转化率与用户满意度。

AI 推荐理由

论文核心在于优化用户画像推理准确性,将其作为约束指导策略,虽涉及多目标但推理是关键。

研究机构
ByteDance Beijing, China MBZUAI, ByteDance Abu Dhabi, United Arab Emirates
论文信息
作者 Mingzhe Li, Jing Xiang, Enguo Zhou, Lang Gao, Tai Li et al.
发布日期 2026-06-08
arXiv ID 2606.09293
相关性评分 8/10 (高度相关)