大语言模型中的稀疏奖励子系统

mechanism interpretation reward system reasoning capability neuron intervention

摘要

本文在大语言模型的隐藏状态中识别出一种稀疏奖励子系统，类比于人脑的生物奖励机制。研究表明，该子系统包含代表模型内部状态价值预期的“价值神经元”，干预实验证实了这些神经元对推理能力的关键作用。实验显示，这些神经元在不同数据集、模型规模及架构中具有鲁棒性，且在同源微调模型间具备显著迁移性。此外，通过分析价值预测与实际奖励的偏差，研究还发现了编码奖励预测误差的“多巴胺神经元”。

AI 推荐理由

论文发现稀疏奖励子系统并证实其中价值神经元对推理能力至关重要，属核心机制研究。

研究机构

清华大学斯坦福大学

论文信息

作者 Guowei Xu, Mert Yuksekgonul, James Zou

发布日期 2026-02-01

arXiv ID 2602.00986