深度循环注意力混合：赋予潜在推理应有的关注

Deep Recurrence Latent Reasoning Attention Mechanism Model Efficiency

摘要

深度循环通过跨深度共享参数促进潜在推理，但现有研究缺乏综合匹配的基线，且受限于固定层堆叠和恒定隐藏尺寸瓶颈。为此，本文提出深度循环注意力混合（Dreamer）模块化框架，结合序列、深度及稀疏专家注意力。该框架通过沿深度的注意力机制缓解隐藏尺寸瓶颈，解耦扩展维度，实现高效扩展。实验表明，在语言推理基准上，同等资源下所需训练令牌减少 2-8 倍，且性能超越约两倍大的最先进模型。

AI 推荐理由

论文核心提出深度循环注意力架构，旨在解决多步潜在推理瓶颈，显著提升语言推理基准表现。

研究机构

德国马克斯·普朗克智能系统研究所德国图宾根大学

论文信息

作者 Jonas Knupp, Jan Hendrik Metzen, Jeremias Bohn, Georg Groh, Kristian Kersting

发布日期 2026-01-29

arXiv ID 2601.21582