一个模型，多个目标：面向电商对话系统的自适应多目标学习

Reinforcement Learning Dialogue Systems Multi-Objective Optimization E-commerce

摘要

电商对话系统需兼顾用户画像推理准确性与回复自然性。本文提出 MORE 框架，采用自适应多目标强化学习联合优化二者。针对混合奖励导致的学习不稳定问题，该方法将推理函数视为约束而非直接混合奖励，并在推理时隐式生成回复以降低开销。同时引入自适应多奖励机制，通过梯度反馈动态调整流畅度等指标权重。在字节跳动真实系统及 MultiWOZ 基准上的实验表明，该方法显著提升了转化率与用户满意度。

AI 推荐理由

论文核心在于优化用户画像推理准确性，将其作为约束指导策略，虽涉及多目标但推理是关键。

研究机构

ByteDance Beijing, China MBZUAI, ByteDance Abu Dhabi, United Arab Emirates

论文信息

作者 Mingzhe Li, Jing Xiang, Enguo Zhou, Lang Gao, Tai Li et al.

发布日期 2026-06-08

arXiv ID 2606.09293