Causal Reasoning Symbolic Verification LLM Evaluation Do-calculus
摘要

大语言模型日益应用于因果推理任务,但现有基准多依赖字符串匹配或表面指标,无法捕捉输出在因果语义下的形式有效性。为此,本文提出 DoVerifier,一种简单的符号验证器,利用 do-演算和概率论规则,检查大语言模型生成的因果表达式是否可由给定因果图推导得出。该方法能恢复因因果语义表面差异而被误判为错误的正确答案。在合成数据及因果问答基准上的评估表明,DoVerifier 能更准确地捕捉因果推理轨迹的语义正确性,为大语言模型因果推理评估提供了更严谨且信息丰富的方法。

AI 推荐理由

论文核心研究利用符号验证提升 LLM 因果推理的语义正确性评估,直接针对推理能力。

研究机构
多伦多大学 Vector Institute ETH苏黎世 MPI for Intelligent Systems
论文信息
作者 Paul He, Yinya Huang, Mrinmaya Sachan, Zhijing Jin
发布日期 2026-01-29
arXiv ID 2601.21210
相关性评分 9/10 (高度相关)