谁动摇了？自我与跨模型反论证揭示大语言模型的答案不稳定性

answer stability adversarial evaluation robustness counter-arguments

摘要

标准准确率基准测试无法评估大语言模型（LLM）在面对合理反论证时能否坚持正确答案。本文提出一种受控协议以评估答案稳定性：在模型正确回答多选题后，用支持错误选项的连贯论证进行挑战，观测模型是否改变答案。实验隔离了社会压力变量，并调整论证长度及来源。结果显示，七种前沿模型在 57 个 MMLU 主题上的翻转率差异巨大（17.5%-97.3%）。研究发现，归因于模型自身的论证显著增加翻转率，且跨模型聚合错误论证能构建更强的对抗挑战。据此构建了 MaxFlip 挑战集，进一步放大了翻转效应。

AI 推荐理由

研究 LLM 在面对反论证时的答案稳定性，直接评估逻辑推理的鲁棒性与一致性。

研究机构

Technical University of Munich Munich Center for Machine Learning LMU Munich

论文信息

作者 Nafiseh Nikeghbal, Amir Hossein Kargaran, Shaghayegh Kolli, Jana Diesner

发布日期 2026-06-14

arXiv ID 2606.16011