mechanistic interpretability ethical reasoning LLM alignment neuron analysis
摘要

本文利用 Transluce 平台对 LLaMA 3.1-8B-Instruct 进行机械可解释性审计,通过五十四项道德提示测试发现“情境锚定效应”。研究表明,模型的伦理能力恒定,但其显著性高度依赖提示选择的解释框架。实验确认模型关注表面变化特征,并识别出稳定的伦理神经元。作者提出“框架条件道德计算”概念,指出行为对齐需补充机械对齐,以验证伦理特征在因果上的优先性。

AI 推荐理由

论文深入分析道德推理的内部计算机制,虽侧重可解释性,但核心对象为推理过程。

研究机构
KD Consulting, CA, USA New York University, NY, USA
论文信息
作者 Ali Dasdan, Manan Shah, W. Russell Neuman, Chad Coleman, Kund Meghani et al.
发布日期 2026-06-13
arXiv ID 2606.15507
相关性评分 8/10 (高度相关)