摘要
深度循环通过跨深度共享参数促进潜在推理,但现有研究缺乏综合匹配的基线,且受限于固定层堆叠和恒定隐藏尺寸瓶颈。为此,本文提出深度循环注意力混合(Dreamer)模块化框架,结合序列、深度及稀疏专家注意力。该框架通过沿深度的注意力机制缓解隐藏尺寸瓶颈,解耦扩展维度,实现高效扩展。实验表明,在语言推理基准上,同等资源下所需训练令牌减少 2-8 倍,且性能超越约两倍大的最先进模型。
AI 推荐理由
论文核心提出深度循环注意力架构,旨在解决多步潜在推理瓶颈,显著提升语言推理基准表现。
研究机构
德国马克斯·普朗克智能系统研究所
德国图宾根大学
论文信息