对话系统 强化学习 不确定性建模 多轮对话
摘要

在多轮对话中,大型语言模型(LLMs)常出现“迷失于对话”现象,难以从早期错误假设中恢复,尤其是在用户提供模糊初始指令时。我们发现,标准的后训练技术如基于可验证奖励的强化学习(RLVR)会加剧这一问题,因为它们奖励自信直接的回答,导致模型过度自信并抑制其寻求澄清的行为。为了解决这一问题,我们提出了言外之意校准策略优化(ICPO),一种新的训练框架,使模型对指令模糊性更加敏感。ICPO通过在训练语料中添加不明确的提示,并将奖励信号条件化于用户的言外之意意图,在面对模糊性时奖励模型表达不确定性或请求澄清。实验表明,ICPO促进了适当的谦逊态度,在多轮对话任务中平均提升了75%,同时保持了在单轮基准测试中的稳健性能。我们的工作为构建更稳健、更具协作性的对话AI提供了实用路径,使其能够更好地应对人类交互的细微差别。

AI 推荐理由

论文涉及对话中模型对模糊指令的处理,与记忆机制相关但非核心主题。

论文信息
作者 Zhebo Wang, Xiaohu Mu, Zijie Zhou, Mohan Li, Wenpeng Xing et al.
发布日期 2026-01-20
arXiv ID 2601.15330
相关性评分 5/10 (一般相关)