摘要
旋转位置嵌入(RoPE)虽能通过几何旋转编码相对位置,但存在“谱刚性”局限,难以捕捉递归逻辑中的长程周期结构,导致模型在深层推理步骤上泛化失败。本文提出“双焦注意力”架构,将位置编码解耦为处理局部语法的“几何眼”和追踪递归深度的“谱眼”。同时引入“谱演化”训练协议,使位置频率从静态几何参数演化为适应特定算法拓扑的谐波基,从而显著提升模型的算法推理与泛化能力。
AI 推荐理由
论文针对算法推理中的递归泛化问题,提出新架构以增强长程逻辑结构捕捉能力。
研究机构
印度理工学院德里分校
论文信息