数据归因 循环Transformer 可解释性 梯度估计
摘要

本文研究了单个训练样本如何塑造循环Transformer的内部计算过程,其中共享模块在τ次递归迭代中被应用以实现潜在推理。现有的训练数据影响估计方法如TracIn仅提供一个聚合所有循环迭代的标量分数,无法揭示训练样本在递归计算过程中何时起作用。本文引入了Step-Decomposed Influence(SDI),通过展开递归计算图并将其分解为长度为τ的影响轨迹,将TracIn分解为特定循环迭代的影响。为了在Transformer规模上实现SDI,提出了一种TensorSketch实现方式,无需显式计算每个样本的梯度。实验表明,SDI在循环GPT风格模型和算法推理任务中表现优异,误差低且支持多种数据归因和可解释性任务,并能提供对潜在推理过程的逐步洞察。

AI 推荐理由

论文涉及训练数据对循环Transformer内部计算的影响,与Agent Memory中的数据归因和可解释性相关。

论文信息
作者 Georgios Kaissis, David Mildenberger, Juan Felipe Gomez, Martin J. Menten, Eleni Triantafillou
发布日期 2026-02-10
arXiv ID 2602.10097
相关性评分 6/10 (相关)