Clarification RLVR Benchmark Hallucination Mitigation
摘要

大型语言模型常在提示缺少关键细节或包含误导信息时强行回答,导致幻觉或强化误解。本文研究如何评估并提升 LLM 决定“何时”及“问什么”以寻求澄清的能力,同时不牺牲任务性能。我们提出了 AskBench,一个交互式基准,将标准问答对转化为含明确检查点的多轮交互,并通过统一评判循环评估最终答案及模拟用户响应。该基准涵盖意图缺失查询(AskMind)和包含虚假前提查询(AskOverconfidence)两种场景。此外,我们提出基于准则的强化学习与验证器奖励(RLVR),利用结构化准则鼓励针对性澄清。实验表明该方法在准确性、准则遵循度及交互效率上均有显著提升,且在未见领域表现出强泛化能力。

AI 推荐理由

论文核心研究 LLM 在信息缺失或错误时的推理判断能力,即何时及如何提问澄清。

研究机构
重庆邮电大学 宾夕法尼亚大学 伊利诺伊大学芝加哥分校
论文信息
作者 Jiale Zhao, Ke Fang, Lu Cheng
发布日期 2026-02-04
arXiv ID 2602.11199
相关性评分 9/10 (高度相关)