不要以貌取书：测试大语言模型在逻辑混淆下的鲁棒性

logical reasoning robustness benchmark obfuscation

摘要

大语言模型在处理标准形式的算术、真值表及三段论任务时表现良好，但在面对逻辑等价却经过混淆表述的问题时往往失败。为此，本文提出 Logifus，一个保持结构的逻辑混淆框架，并据此构建首个诊断基准 LogiQAte，涵盖一阶逻辑蕴含、血缘关系推导、数字序列归纳及方向感推理四项任务。实验显示，逻辑混淆导致最先进模型的零样本性能平均下降 22% 至 47%，表明当前模型缺乏深层语义理解，亟需提升超越表面形式的真正推理能力。

AI 推荐理由

论文核心研究 LLM 在逻辑混淆下的推理鲁棒性，直接评估逻辑推理能力。

研究机构

曼尼普尔大学贾ipur 印度理工学院，帕特纳印度科学教育与研究学院，加尔各答

论文信息

作者 Abhilekh Borah, Shubhra Ghosh, Kedar Joshi, Aditya Kumar Guru, Kripabandhu Ghosh

发布日期 2026-02-01

arXiv ID 2602.01132