论大语言模型生成式推理中层剪枝的局限性

Layer Pruning Generative Reasoning Model Compression Mathematical Reasoning Code Synthesis

摘要

近期研究表明，层剪枝可在几乎无需微调的情况下压缩大语言模型并保持分类性能，但在生成式推理任务中往往导致严重退化。本文通过系统研究发现，多步推理任务对深度减少尤为敏感，不仅出现文本退化，更损害算术计算和代码合成等关键算法能力。在受限的后训练条件下，作者评估了一种基于自生成响应监督微调的缓解策略。该方法在分类任务上恢复了高达 90% 的性能，并在生成式基准测试中较先前技术提升了 20-30 个百分点。然而，生成式推理的恢复仍受根本性限制，仅适用于较低剪枝比例。

AI 推荐理由

论文核心研究剪枝对多步推理、数学及代码生成能力的具体影响与极限。

研究机构

纽约大学阿布扎比分校计算机科学系

论文信息

作者 Safal Shrestha, Anubhav Shrestha, Aadim Nepal, Minwu Kim, Keith Ross

发布日期 2026-02-02

arXiv ID 2602.01997