Causal Reasoning Human Bias Chain-of-Thought Robustness
摘要

本研究评估了 20 多个大语言模型在因果判断任务中的表现,对比人类基线发现大多数模型展现出比人类更规则的推理策略,未表现出典型的类人碰撞偏差。研究进一步探讨了语义抽象和提示过载对鲁棒性的影响,证实思维链(CoT)能显著提升多数模型的稳定性。结果表明,LLM 可作为人类偏见的补充,但其规则化推理在内在不确定性场景中可能失效,需深入刻画其推理机制以确保安全部署。

AI 推荐理由

论文核心研究 LLM 在因果推理任务中的表现、偏差及思维链对鲁棒性的提升。

研究机构
纽约大学 图宾根大学 达姆施塔特工业大学
论文信息
作者 Hanna M. Dettki, Charley M. Wu, Bob Rehder
发布日期 2026-02-03
arXiv ID 2602.02983
相关性评分 9/10 (高度相关)