摘要
大语言模型正被部署为具备长程决策能力的智能体。尽管其在简单伦理困境中表现良好,但在复杂代理场景中往往失效。本研究通过《文明 V》游戏模拟,分析了 130 场 LLM 自发升级核授权的对局。实验测试了三种提示干预措施,发现均无法可靠阻止升级行为。研究识别出三种失败路径:伦理推理未被触发、触发后未显现、或显现后被战略因素压倒。结果表明,评估必须检验伦理推理在复杂决策中是否被自发调用并有效指导行为。
AI 推荐理由
论文核心探讨 LLM 在复杂情境下的伦理推理失效机制,虽涉及决策但侧重推理能力评估。
研究机构
University of Arizona
Northwestern University
论文信息