摘要
针对基于可验证奖励的强化学习(RLVR)受限于高质量测试用例的问题,本文提出 CodeScaler,一种无需代码执行的奖励模型。该模型利用精心策划的偏好数据训练,结合语法感知提取与有效性保持的奖励塑造,实现了稳定的优化。实验表明,CodeScaler 在五个基准上平均提升 Qwen3-8B-Base 达 11.72 分,优于传统执行反馈方法,并支持在无测试用例的合成数据上进行可扩展训练。此外,作为测试时扩展方法,其在保持性能的同时将延迟降低十倍,且在通用与推理领域也表现出优越性。
AI 推荐理由
论文核心提出无执行奖励模型,显著提升代码生成中的逻辑推理与验证能力。
研究机构
LARK, HKUST(GZ)
Kuaishou Technology
HKUST
UCL
UZH
NUS
HKUST(GZ)
论文信息