扩展用于竞技编程的代理验证器

Competitive Programming Execution-based Verification Test-time Scaling Agentic Reasoning

摘要

大型语言模型在竞技编程中单次尝试成功率有限。针对现有基于执行的重新排序方法在测试用例生成上的局限，本文提出“代理验证器”。该代理通过与代码执行环境的多轮交互，主动推理程序行为，迭代优化输入生成器以产生针对性的反例，而非盲目采样。通过结合大规模数据合成、拒绝微调和代理强化学习的可扩展流程训练该验证器。实验表明，该方法在五个基准测试中显著优于现有基线，最佳@K 准确率提升达 10-15%，并展现出清晰的测试时扩展能力。

AI 推荐理由

论文核心在于代理通过主动推理程序行为来生成判别性测试用例，属于深度推理应用。

研究机构

清华大学阿里巴巴集团

论文信息

作者 Zeyao Ma, Jing Zhang, Xiaokang Zhang, Jiaxi Yang, Zongmeng Zhang et al.

发布日期 2026-02-04

arXiv ID 2602.04254