稀疏性诅咒：从模型融合视角理解 RLVR 模型的参数空间

RLVR Model Merging Reasoning Intelligence Parameter Space Sparsity

摘要

可验证奖励强化学习（RLVR）在激发推理智能方面优于监督微调，但其参数更新高度稀疏且偏离主成分。本文发现这种稀疏性导致“稀疏性诅咒”，使 RLVR 模型难以通过常规方法融合，因为更新在参数空间中呈近正交分布。研究揭示了失败机制，并提出敏感性感知解决融合（SAR-Merging）方法，利用费雪信息仲裁冲突并保留推理路径。实验表明该方法在数学和编码任务上显著优于现有融合技术，实现了单任务增强与多能力融合。

AI 推荐理由

论文聚焦 RLVR 激发的推理智能，分析其参数空间特性对模型融合的影响，核心目标是聚合推理能力。

研究机构

Zhejiang University Hangzhou, China Knowin AI Shenzhen, China Zhejiang Key Lab of Accessible Perception and Intelligent Systems School of Computing Science Simon Fraser University Burnaby, Canada College of Computer Science

论文信息

作者 Chenrui Wu, Zexi Li, Jiajun Bu, Jiangchuan Liu, Haishuai Wang

发布日期 2026-06-16

arXiv ID 2606.18521