通过符号验证揭示大语言模型因果推理中隐藏的正确性

Causal Reasoning Symbolic Verification LLM Evaluation Do-calculus

摘要

大语言模型日益应用于因果推理任务，但现有基准多依赖字符串匹配或表面指标，无法捕捉输出在因果语义下的形式有效性。为此，本文提出 DoVerifier，一种简单的符号验证器，利用 do-演算和概率论规则，检查大语言模型生成的因果表达式是否可由给定因果图推导得出。该方法能恢复因因果语义表面差异而被误判为错误的正确答案。在合成数据及因果问答基准上的评估表明，DoVerifier 能更准确地捕捉因果推理轨迹的语义正确性，为大语言模型因果推理评估提供了更严谨且信息丰富的方法。

AI 推荐理由

论文核心研究利用符号验证提升 LLM 因果推理的语义正确性评估，直接针对推理能力。

研究机构

多伦多大学 Vector Institute ETH苏黎世 MPI for Intelligent Systems

论文信息

作者 Paul He, Yinya Huang, Mrinmaya Sachan, Zhijing Jin

发布日期 2026-01-29

arXiv ID 2601.21210