摘要
大型语言模型在竞技编程中单次尝试成功率有限。针对现有基于执行的重新排序方法在测试用例生成上的局限,本文提出“代理验证器”。该代理通过与代码执行环境的多轮交互,主动推理程序行为,迭代优化输入生成器以产生针对性的反例,而非盲目采样。通过结合大规模数据合成、拒绝微调和代理强化学习的可扩展流程训练该验证器。实验表明,该方法在五个基准测试中显著优于现有基线,最佳@K 准确率提升达 10-15%,并展现出清晰的测试时扩展能力。
AI 推荐理由
论文核心在于代理通过主动推理程序行为来生成判别性测试用例,属于深度推理应用。
研究机构
清华大学
阿里巴巴集团
论文信息