何时问与问什么：用于 LLM 澄清的 AskBench 与基于准则的 RLVR

Clarification RLVR Benchmark Hallucination Mitigation

摘要

大型语言模型常在提示缺少关键细节或包含误导信息时强行回答，导致幻觉或强化误解。本文研究如何评估并提升 LLM 决定“何时”及“问什么”以寻求澄清的能力，同时不牺牲任务性能。我们提出了 AskBench，一个交互式基准，将标准问答对转化为含明确检查点的多轮交互，并通过统一评判循环评估最终答案及模拟用户响应。该基准涵盖意图缺失查询（AskMind）和包含虚假前提查询（AskOverconfidence）两种场景。此外，我们提出基于准则的强化学习与验证器奖励（RLVR），利用结构化准则鼓励针对性澄清。实验表明该方法在准确性、准则遵循度及交互效率上均有显著提升，且在未见领域表现出强泛化能力。

AI 推荐理由

论文核心研究 LLM 在信息缺失或错误时的推理判断能力，即何时及如何提问澄清。

研究机构

重庆邮电大学宾夕法尼亚大学伊利诺伊大学芝加哥分校

论文信息

作者 Jiale Zhao, Ke Fang, Lu Cheng

发布日期 2026-02-04

arXiv ID 2602.11199