可控表示 模型微调 内部状态管理 可解释性
摘要

如何以最直接的方式将可解释、可控的特征植入模型的激活中?通常控制LLM内部概念表示需要复杂的识别和干预方法。本文绕过了这些步骤,通过简单的辅助损失函数对LLM进行微调,训练其3072个残差流维度中的16个作为惰性可解释标志,用于指示生成所需的概念。模型会围绕这些标志重新组织,并在实际生成任务中依赖它们。结果表明,这些惰性标志成为真正的内部特征,允许在推理时控制生成。该方法有效的原因在于,当特征在固定位置可靠提供时,梯度下降会逐渐消除其他冗余编码,模型自身也会侵蚀替代表示。模型的效率压力是一种杠杆,可用于诱导可解释、可控的表示。

AI 推荐理由

论文探讨了通过可控特征实现模型内部表示的可解释性,与Agent Memory中的可控性和内部状态管理相关。

论文信息
作者 Charles Ye, Jasmine Cui
发布日期 2026-02-08
arXiv ID 2602.07828
相关性评分 7/10 (相关)