摘要
在多轮对话中,大型语言模型(LLMs)常出现“迷失于对话”现象,难以从早期错误假设中恢复,尤其是在用户提供模糊初始指令时。我们发现,标准的后训练技术如基于可验证奖励的强化学习(RLVR)会加剧这一问题,因为它们奖励自信直接的回答,导致模型过度自信并抑制其寻求澄清的行为。为了解决这一问题,我们提出了言外之意校准策略优化(ICPO),一种新的训练框架,使模型对指令模糊性更加敏感。ICPO通过在训练语料中添加不明确的提示,并将奖励信号条件化于用户的言外之意意图,在面对模糊性时奖励模型表达不确定性或请求澄清。实验表明,ICPO促进了适当的谦逊态度,在多轮对话任务中平均提升了75%,同时保持了在单轮基准测试中的稳健性能。我们的工作为构建更稳健、更具协作性的对话AI提供了实用路径,使其能够更好地应对人类交互的细微差别。
AI 推荐理由
论文涉及对话中模型对模糊指令的处理,与记忆机制相关但非核心主题。
论文信息