ICPO：面向多轮对话的言外之意校准策略优化

对话系统强化学习不确定性建模多轮对话

摘要

在多轮对话中，大型语言模型（LLMs）常出现“迷失于对话”现象，难以从早期错误假设中恢复，尤其是在用户提供模糊初始指令时。我们发现，标准的后训练技术如基于可验证奖励的强化学习（RLVR）会加剧这一问题，因为它们奖励自信直接的回答，导致模型过度自信并抑制其寻求澄清的行为。为了解决这一问题，我们提出了言外之意校准策略优化（ICPO），一种新的训练框架，使模型对指令模糊性更加敏感。ICPO通过在训练语料中添加不明确的提示，并将奖励信号条件化于用户的言外之意意图，在面对模糊性时奖励模型表达不确定性或请求澄清。实验表明，ICPO促进了适当的谦逊态度，在多轮对话任务中平均提升了75%，同时保持了在单轮基准测试中的稳健性能。我们的工作为构建更稳健、更具协作性的对话AI提供了实用路径，使其能够更好地应对人类交互的细微差别。

AI 推荐理由

论文涉及对话中模型对模糊指令的处理，与记忆机制相关但非核心主题。

论文信息

作者 Zhebo Wang, Xiaohu Mu, Zijie Zhou, Mohan Li, Wenpeng Xing et al.

发布日期 2026-01-20

arXiv ID 2601.15330