摘要
大语言模型日益应用于因果推理任务,但现有基准多依赖字符串匹配或表面指标,无法捕捉输出在因果语义下的形式有效性。为此,本文提出 DoVerifier,一种简单的符号验证器,利用 do-演算和概率论规则,检查大语言模型生成的因果表达式是否可由给定因果图推导得出。该方法能恢复因因果语义表面差异而被误判为错误的正确答案。在合成数据及因果问答基准上的评估表明,DoVerifier 能更准确地捕捉因果推理轨迹的语义正确性,为大语言模型因果推理评估提供了更严谨且信息丰富的方法。
AI 推荐理由
论文核心研究利用符号验证提升 LLM 因果推理的语义正确性评估,直接针对推理能力。
研究机构
多伦多大学
Vector Institute
ETH苏黎世
MPI for Intelligent Systems
论文信息