摘要
本文研究了单个训练样本如何塑造循环Transformer的内部计算过程,其中共享模块在τ次递归迭代中被应用以实现潜在推理。现有的训练数据影响估计方法如TracIn仅提供一个聚合所有循环迭代的标量分数,无法揭示训练样本在递归计算过程中何时起作用。本文引入了Step-Decomposed Influence(SDI),通过展开递归计算图并将其分解为长度为τ的影响轨迹,将TracIn分解为特定循环迭代的影响。为了在Transformer规模上实现SDI,提出了一种TensorSketch实现方式,无需显式计算每个样本的梯度。实验表明,SDI在循环GPT风格模型和算法推理任务中表现优异,误差低且支持多种数据归因和可解释性任务,并能提供对潜在推理过程的逐步洞察。
AI 推荐理由
论文涉及训练数据对循环Transformer内部计算的影响,与Agent Memory中的数据归因和可解释性相关。
论文信息