小初始化对大型语言模型至关重要

parameter initialization reasoning capability pretraining dynamics model capacity

摘要

本文指出参数初始化是决定大模型训练及容量的关键因素。研究表明，减小初始化尺度能持续优化预训练效果，尤其在需要高推理能力的任务上增益显著。机制上，小初始化促使参数先凝聚为低复杂度结构，再扩展为丰富表示，验证了“压缩即智能”的观点。词元级分析显示，收益集中于非平凡且受上下文约束的预测。作者提出简单的γ初始化规则，作为一种低成本干预手段，能有效增强跨规模模型的推理能力。

AI 推荐理由

论文核心发现小初始化显著提升推理任务表现，并深入探讨其机制，是研究关键。

研究机构

School of Mathematical Sciences, Shanghai Jiao Tong University, Shanghai, 200240, China. Institute of Natural Sciences, Shanghai Jiao Tong University, Shanghai, 200240, China.

论文信息

作者 Liangkai Hang, Junjie Yao, Zhiyu Li, Feiyu Xiong, Hongkang Yang et al.

发布日期 2026-06-16

arXiv ID 2606.17945