AgentCyberRange：在真实网络靶场中基准测试前沿 AI 系统

Cybersecurity Agent Benchmark Offensive AI Tool Use

摘要

针对现有基准缺乏真实多主机网络环境的问题，本文提出 AgentCyberRange，首个用于衡量自主网络攻击能力的开放多靶场基础设施。该基准涵盖 15 个真实 Web 应用和 8 个企业级网络范围，包含 110 个漏洞，重点评估 Web 利用和后利用两个核心阶段的技能。实验显示，GPT-5.5 结合 Codex 表现最佳，且在具体提示下成功率显著提升。研究证实，开放网络靶场对于观察真实条件下 AI 新兴进攻能力至关重要。

AI 推荐理由

论文核心评估 Agent 在真实网络环境中的工具使用、漏洞利用及攻击技能，属于技能学习与应用的关键研究。

研究机构

Fudan University

论文信息

作者 Fengyu Liu, Jiarun Dai, Yihe Fan, Wuyuao Mai, Ziao Li et al.

发布日期 2026-06-12

arXiv ID 2606.14295