Competitive Programming Execution-based Verification Test-time Scaling Agentic Reasoning
摘要

大型语言模型在竞技编程中单次尝试成功率有限。针对现有基于执行的重新排序方法在测试用例生成上的局限,本文提出“代理验证器”。该代理通过与代码执行环境的多轮交互,主动推理程序行为,迭代优化输入生成器以产生针对性的反例,而非盲目采样。通过结合大规模数据合成、拒绝微调和代理强化学习的可扩展流程训练该验证器。实验表明,该方法在五个基准测试中显著优于现有基线,最佳@K 准确率提升达 10-15%,并展现出清晰的测试时扩展能力。

AI 推荐理由

论文核心在于代理通过主动推理程序行为来生成判别性测试用例,属于深度推理应用。

研究机构
清华大学 阿里巴巴集团
论文信息
作者 Zeyao Ma, Jing Zhang, Xiaokang Zhang, Jiaxi Yang, Zongmeng Zhang et al.
发布日期 2026-02-04
arXiv ID 2602.04254
相关性评分 9/10 (高度相关)