摘要
具身智能体需在特定环境中交互,其成功沟通往往依赖于对社会规范的推理。关键能力在于基于规范的指称消解(NBRR),即结合物理与社会语境推断隐含的规范预期以理解指称表达。本文提出 SNIC 诊断测试床,用于评估前沿大语言模型提取和应用相关规范原则的能力。实验发现,即便最强模型在规范隐含、未明确或冲突时仍难以一致地识别与应用社会规范,揭示了当前模型在具身社会场景部署中的关键短板。
AI 推荐理由
论文核心评估 LLM 在社会规范约束下的推理能力,属于规范性推理研究。
研究机构
特鲁斯大学
论文信息