循环Transformer的分步数据归因

数据归因循环Transformer 可解释性梯度估计

摘要

本文研究了单个训练样本如何塑造循环Transformer的内部计算过程，其中共享模块在τ次递归迭代中被应用以实现潜在推理。现有的训练数据影响估计方法如TracIn仅提供一个聚合所有循环迭代的标量分数，无法揭示训练样本在递归计算过程中何时起作用。本文引入了Step-Decomposed Influence（SDI），通过展开递归计算图并将其分解为长度为τ的影响轨迹，将TracIn分解为特定循环迭代的影响。为了在Transformer规模上实现SDI，提出了一种TensorSketch实现方式，无需显式计算每个样本的梯度。实验表明，SDI在循环GPT风格模型和算法推理任务中表现优异，误差低且支持多种数据归因和可解释性任务，并能提供对潜在推理过程的逐步洞察。

AI 推荐理由

论文涉及训练数据对循环Transformer内部计算的影响，与Agent Memory中的数据归因和可解释性相关。

论文信息

作者 Georgios Kaissis, David Mildenberger, Juan Felipe Gomez, Martin J. Menten, Eleni Triantafillou

发布日期 2026-02-10

arXiv ID 2602.10097