摘要
本研究评估了 20 多个大语言模型在因果判断任务中的表现,对比人类基线发现大多数模型展现出比人类更规则的推理策略,未表现出典型的类人碰撞偏差。研究进一步探讨了语义抽象和提示过载对鲁棒性的影响,证实思维链(CoT)能显著提升多数模型的稳定性。结果表明,LLM 可作为人类偏见的补充,但其规则化推理在内在不确定性场景中可能失效,需深入刻画其推理机制以确保安全部署。
AI 推荐理由
论文核心研究 LLM 在因果推理任务中的表现、偏差及思维链对鲁棒性的提升。
研究机构
纽约大学
图宾根大学
达姆施塔特工业大学
论文信息