摘要
本文指出参数初始化是决定大模型训练及容量的关键因素。研究表明,减小初始化尺度能持续优化预训练效果,尤其在需要高推理能力的任务上增益显著。机制上,小初始化促使参数先凝聚为低复杂度结构,再扩展为丰富表示,验证了“压缩即智能”的观点。词元级分析显示,收益集中于非平凡且受上下文约束的预测。作者提出简单的γ初始化规则,作为一种低成本干预手段,能有效增强跨规模模型的推理能力。
AI 推荐理由
论文核心发现小初始化显著提升推理任务表现,并深入探讨其机制,是研究关键。
研究机构
School of Mathematical Sciences, Shanghai Jiao Tong University, Shanghai, 200240, China.
Institute of Natural Sciences, Shanghai Jiao Tong University, Shanghai, 200240, China.
论文信息