工作记忆 测试时自适应 长上下文建模 梯度优化 门控机制
摘要

长上下文对Transformer模型提出了挑战:注意力分数在数千个token上稀释,关键信息常在中间部分丢失,且模型难以在推理时适应新模式。近期研究通过维护一种工作记忆(即在当前上下文中更新的临时参数)来解决这一问题,但现有方法依赖于统一的写入策略,导致计算资源浪费在低效区域,并在语义异构上下文中梯度方差较高。本文将测试时自适应重新定义为预算受限的记忆巩固问题,关注在有限计算条件下应巩固上下文的哪些部分。我们提出Gdwm(门控可微工作记忆),引入一个写控制器以门控巩固过程。该控制器估计上下文效用,这是一种衡量长距离上下文依赖的信息论指标,并据此分配梯度步骤,同时保持全局覆盖。在ZeroSCROLLS和LongBench v2上的实验表明,Gdwm在使用4倍更少梯度步骤的情况下实现了与均匀基线相当或更优的性能,确立了测试时自适应的新效率-性能帕累托前沿。

AI 推荐理由

论文核心聚焦于工作记忆机制,提出Gdwm框架用于长上下文语言建模中的测试时自适应。

论文信息
作者 Lingrui Mei, Shenghua Liu, Yiwei Wang, Yuyao Ge, Baolong Bi et al.
发布日期 2026-01-19
arXiv ID 2601.12906
相关性评分 9/10 (高度相关)