摘要
标准准确率基准测试无法评估大语言模型(LLM)在面对合理反论证时能否坚持正确答案。本文提出一种受控协议以评估答案稳定性:在模型正确回答多选题后,用支持错误选项的连贯论证进行挑战,观测模型是否改变答案。实验隔离了社会压力变量,并调整论证长度及来源。结果显示,七种前沿模型在 57 个 MMLU 主题上的翻转率差异巨大(17.5%-97.3%)。研究发现,归因于模型自身的论证显著增加翻转率,且跨模型聚合错误论证能构建更强的对抗挑战。据此构建了 MaxFlip 挑战集,进一步放大了翻转效应。
AI 推荐理由
研究 LLM 在面对反论证时的答案稳定性,直接评估逻辑推理的鲁棒性与一致性。
研究机构
Technical University of Munich
Munich Center for Machine Learning
LMU Munich
论文信息