LLaMA 3.1-8B-Instruct 中的框架条件道德计算：伦理推理的机械可解释性审计

mechanistic interpretability ethical reasoning LLM alignment neuron analysis

摘要

本文利用 Transluce 平台对 LLaMA 3.1-8B-Instruct 进行机械可解释性审计，通过五十四项道德提示测试发现“情境锚定效应”。研究表明，模型的伦理能力恒定，但其显著性高度依赖提示选择的解释框架。实验确认模型关注表面变化特征，并识别出稳定的伦理神经元。作者提出“框架条件道德计算”概念，指出行为对齐需补充机械对齐，以验证伦理特征在因果上的优先性。

AI 推荐理由

论文深入分析道德推理的内部计算机制，虽侧重可解释性，但核心对象为推理过程。

研究机构

KD Consulting, CA, USA New York University, NY, USA

论文信息

作者 Ali Dasdan, Manan Shah, W. Russell Neuman, Chad Coleman, Kund Meghani et al.

发布日期 2026-06-13

arXiv ID 2606.15507