摘要
本文利用 Transluce 平台对 LLaMA 3.1-8B-Instruct 进行机械可解释性审计,通过五十四项道德提示测试发现“情境锚定效应”。研究表明,模型的伦理能力恒定,但其显著性高度依赖提示选择的解释框架。实验确认模型关注表面变化特征,并识别出稳定的伦理神经元。作者提出“框架条件道德计算”概念,指出行为对齐需补充机械对齐,以验证伦理特征在因果上的优先性。
AI 推荐理由
论文深入分析道德推理的内部计算机制,虽侧重可解释性,但核心对象为推理过程。
研究机构
KD Consulting, CA, USA
New York University, NY, USA
论文信息