Normative Reasoning Embodied Agents Social Norms Reference Resolution LLM Evaluation
摘要

具身智能体需在特定环境中交互,其成功沟通往往依赖于对社会规范的推理。关键能力在于基于规范的指称消解(NBRR),即结合物理与社会语境推断隐含的规范预期以理解指称表达。本文提出 SNIC 诊断测试床,用于评估前沿大语言模型提取和应用相关规范原则的能力。实验发现,即便最强模型在规范隐含、未明确或冲突时仍难以一致地识别与应用社会规范,揭示了当前模型在具身社会场景部署中的关键短板。

AI 推荐理由

论文核心评估 LLM 在社会规范约束下的推理能力,属于规范性推理研究。

研究机构
特鲁斯大学
论文信息
作者 Mitchell Abrams, Kaveh Eskandari Miandoab, Felix Gervits, Vasanth Sarathy, Matthias Scheutz
发布日期 2026-02-03
arXiv ID 2602.02975
相关性评分 9/10 (高度相关)