摘要
大型语言模型(LLMs)很少承认其不确定性,通常会生成流畅但具有误导性的答案,而不是拒绝回答。这种缺陷在时间问答任务中尤为明显,模型经常忽略时间敏感的证据并混淆不同时期的事实。本文首次对训练具备拒绝能力的LLM进行实证研究,特别是在时间问答推理中。我们提出了一种结合思维链监督与基于拒绝感知奖励的强化学习的流程,系统分析不同类型信息和训练技术对LLM在拒绝行为下的时间推理的影响。实验表明,强化学习显著提升了模型性能,并提高了对无法回答问题的识别率。此外,我们发现隐式推理线索对带有拒绝行为的推理帮助有限。本研究为联合优化拒绝与推理提供了新见解,为构建更可靠的LLM奠定了基础。
AI 推荐理由
论文探讨了LLM在时间问答任务中如何通过学习‘拒绝回答’来提升可靠性,与Agent Memory中的不确定性处理和决策机制相关。
论文信息