摘要
大语言模型在处理标准形式的算术、真值表及三段论任务时表现良好,但在面对逻辑等价却经过混淆表述的问题时往往失败。为此,本文提出 Logifus,一个保持结构的逻辑混淆框架,并据此构建首个诊断基准 LogiQAte,涵盖一阶逻辑蕴含、血缘关系推导、数字序列归纳及方向感推理四项任务。实验显示,逻辑混淆导致最先进模型的零样本性能平均下降 22% 至 47%,表明当前模型缺乏深层语义理解,亟需提升超越表面形式的真正推理能力。
AI 推荐理由
论文核心研究 LLM 在逻辑混淆下的推理鲁棒性,直接评估逻辑推理能力。
研究机构
曼尼普尔大学贾ipur
印度理工学院,帕特纳
印度科学教育与研究学院,加尔各答
论文信息