规范与指称的碰撞：评估大语言模型的规范性推理能力

Normative Reasoning Embodied Agents Social Norms Reference Resolution LLM Evaluation

摘要

具身智能体需在特定环境中交互，其成功沟通往往依赖于对社会规范的推理。关键能力在于基于规范的指称消解（NBRR），即结合物理与社会语境推断隐含的规范预期以理解指称表达。本文提出 SNIC 诊断测试床，用于评估前沿大语言模型提取和应用相关规范原则的能力。实验发现，即便最强模型在规范隐含、未明确或冲突时仍难以一致地识别与应用社会规范，揭示了当前模型在具身社会场景部署中的关键短板。

AI 推荐理由

论文核心评估 LLM 在社会规范约束下的推理能力，属于规范性推理研究。

研究机构

特鲁斯大学

论文信息

作者 Mitchell Abrams, Kaveh Eskandari Miandoab, Felix Gervits, Vasanth Sarathy, Matthias Scheutz

发布日期 2026-02-03

arXiv ID 2602.02975