Temporal QA Abstention Reinforcement Learning Uncertainty Chain-of-Thought
摘要

大语言模型常因无法承认不确定性而生成误导性答案,尤其在时序问答中易混淆不同时期的事实。本文首次实证研究了训练模型在时序推理中具备“弃权”能力的方法。作者将弃权视为可习得技能,提出结合思维链监督与弃权感知奖励的强化学习流程。实验表明,该方法显著提升了推理性能及不可回答问题的识别率,优于纯监督微调,并揭示了隐式信息对推理助益有限,为构建更可靠的模型提供了新见解。

AI 推荐理由

论文核心研究时序推理中的不确定性处理,通过强化学习优化推理与弃权行为。

研究机构
HKUST (GZ) Tongji University University of Tübingen HKUST, HKUST (GZ)
论文信息
作者 Xinyu Zhou, Chang Jin, Carsten Eickhoff, Zhijiang Guo, Seyed Ali Bahrainian
发布日期 2026-02-04
arXiv ID 2602.04755
相关性评分 9/10 (高度相关)