摘要
可验证奖励强化学习(RLVR)在激发推理智能方面优于监督微调,但其参数更新高度稀疏且偏离主成分。本文发现这种稀疏性导致“稀疏性诅咒”,使 RLVR 模型难以通过常规方法融合,因为更新在参数空间中呈近正交分布。研究揭示了失败机制,并提出敏感性感知解决融合(SAR-Merging)方法,利用费雪信息仲裁冲突并保留推理路径。实验表明该方法在数学和编码任务上显著优于现有融合技术,实现了单任务增强与多能力融合。
AI 推荐理由
论文聚焦 RLVR 激发的推理智能,分析其参数空间特性对模型融合的影响,核心目标是聚合推理能力。
研究机构
Zhejiang University
Hangzhou, China
Knowin AI
Shenzhen, China
Zhejiang Key Lab of Accessible Perception and Intelligent Systems
School of Computing Science
Simon Fraser University
Burnaby, Canada
College of Computer Science
论文信息