摘要
旋转位置嵌入(RoPE)被广泛用于大型语言模型中,通过乘法旋转对令牌位置进行编码。然而,其在长上下文长度下的行为尚未得到充分表征。本文将RoPE重新解释为应用于一组复数振荡器的相位调制,从而可以通过经典信号处理理论进行分析。在此基础上,我们推导出确保目标上下文长度内位置一致性的RoPE基参数的理论下界,包括类似奈奎斯特极限的基本混叠界限和约束低频位置模式相位漂移的直流分量稳定性界限。此外,我们将这一分析扩展到深层Transformer,表明跨层重复的旋转调制会累积角度偏差,随着深度增加而收紧基参数要求。同时,我们还推导出一个依赖于精度的RoPE基上界,源于有限浮点分辨率。超过此限制后,增量相位更新将变得数值不可区分,导致即使没有混叠也会出现位置丢失。上下界共同定义了一个依赖于精度和深度的可行性区域,即长上下文Transformer的“黄金区间”。通过全面案例研究,验证了该框架在LLaMA、Mistral和DeepSeek等前沿模型上的适用性,发现观察到的成功、失败及社区改进均与预测界限高度一致。值得注意的是,违反稳定性界限的模型会出现注意力崩溃和长距离退化,而尝试扩展至百万级token时则会遇到与架构或训练无关的硬精度瓶颈。
AI 推荐理由
论文探讨了RoPE在长上下文中的行为,与Agent Memory中位置编码相关,但非核心主题。
论文信息