Code LLM Reward Modeling Reinforcement Learning Test-Time Scaling
摘要

针对基于可验证奖励的强化学习(RLVR)受限于高质量测试用例的问题,本文提出 CodeScaler,一种无需代码执行的奖励模型。该模型利用精心策划的偏好数据训练,结合语法感知提取与有效性保持的奖励塑造,实现了稳定的优化。实验表明,CodeScaler 在五个基准上平均提升 Qwen3-8B-Base 达 11.72 分,优于传统执行反馈方法,并支持在无测试用例的合成数据上进行可扩展训练。此外,作为测试时扩展方法,其在保持性能的同时将延迟降低十倍,且在通用与推理领域也表现出优越性。

AI 推荐理由

论文核心提出无执行奖励模型,显著提升代码生成中的逻辑推理与验证能力。

研究机构
LARK, HKUST(GZ) Kuaishou Technology HKUST UCL UZH NUS HKUST(GZ)
论文信息
作者 Xiao Zhu, Xinyu Zhou, Boyu Zhu, Hanxu Hu, Mingzhe Du et al.
发布日期 2026-02-04
arXiv ID 2602.17684
相关性评分 9/10 (高度相关)