logical reasoning robustness benchmark obfuscation
摘要

大语言模型在处理标准形式的算术、真值表及三段论任务时表现良好,但在面对逻辑等价却经过混淆表述的问题时往往失败。为此,本文提出 Logifus,一个保持结构的逻辑混淆框架,并据此构建首个诊断基准 LogiQAte,涵盖一阶逻辑蕴含、血缘关系推导、数字序列归纳及方向感推理四项任务。实验显示,逻辑混淆导致最先进模型的零样本性能平均下降 22% 至 47%,表明当前模型缺乏深层语义理解,亟需提升超越表面形式的真正推理能力。

AI 推荐理由

论文核心研究 LLM 在逻辑混淆下的推理鲁棒性,直接评估逻辑推理能力。

研究机构
曼尼普尔大学贾ipur 印度理工学院,帕特纳 印度科学教育与研究学院,加尔各答
论文信息
作者 Abhilekh Borah, Shubhra Ghosh, Kedar Joshi, Aditya Kumar Guru, Kripabandhu Ghosh
发布日期 2026-02-01
arXiv ID 2602.01132
相关性评分 9/10 (高度相关)