摘要
针对现有代码智能体安全评估依赖昂贵人工复现且数据过时的问题,本文提出 CVE-Factory,首个将稀疏 CVE 元数据自动转化为可执行专家级任务的多智能体框架。经验证,其解决方案正确率达 95%,环境保真度 96%。基于此构建了持续更新的 LiveCVEBench 基准及千级训练环境。微调后的 Qwen3-32B 模型在该基准上表现显著提升,超越 Claude 4.5 Sonnet,实现了代码安全领域代理任务的大规模扩展。
AI 推荐理由
论文核心在于构建自动化框架生成代码安全漏洞修复任务,直接提升 Agent 的工具使用与代码修复技能。
研究机构
语言智能组,研究与社会计算中心,哈尔滨工业大学
论文信息