摘要
本文引入了一个数学框架来研究线性表示假设(LRH),该假设认为语言模型中间层以线性方式存储特征。作者将该假设分为两个部分:线性表示(特征在线性神经元激活中嵌入)和线性可访问性(特征可通过线性解码)。文章探讨了需要多少个神经元 $d$ 才能同时实现对 $m$ 个特征的线性表示和线性访问。经典压缩感知理论表明,对于 $k$-稀疏输入,若允许非线性解码算法,则 $d = O(k ext{log}(m/k))$ 足够。但加入线性解码要求后,问题进入线性压缩感知领域。本文的主要理论结果建立了线性压缩感知的上下界,并证明了线性可访问性比线性表示更强,为“叠加假设”提供了理论支持。
AI 推荐理由
论文探讨了语言模型中特征存储的线性表示假设,与Agent Memory中的信息存储和访问机制相关。
论文信息