CodeScaler：通过无执行奖励模型扩展代码大语言模型的训练与测试时推理

Code LLM Reward Modeling Reinforcement Learning Test-Time Scaling

摘要

针对基于可验证奖励的强化学习（RLVR）受限于高质量测试用例的问题，本文提出 CodeScaler，一种无需代码执行的奖励模型。该模型利用精心策划的偏好数据训练，结合语法感知提取与有效性保持的奖励塑造，实现了稳定的优化。实验表明，CodeScaler 在五个基准上平均提升 Qwen3-8B-Base 达 11.72 分，优于传统执行反馈方法，并支持在无测试用例的合成数据上进行可扩展训练。此外，作为测试时扩展方法，其在保持性能的同时将延迟降低十倍，且在通用与推理领域也表现出优越性。

AI 推荐理由

论文核心提出无执行奖励模型，显著提升代码生成中的逻辑推理与验证能力。

研究机构

LARK, HKUST(GZ) Kuaishou Technology HKUST UCL UZH NUS HKUST(GZ)

论文信息

作者 Xiao Zhu, Xinyu Zhou, Boyu Zhu, Hanxu Hu, Mingzhe Du et al.

发布日期 2026-02-04

arXiv ID 2602.17684