摘要
针对现有基准缺乏真实多主机网络环境的问题,本文提出 AgentCyberRange,首个用于衡量自主网络攻击能力的开放多靶场基础设施。该基准涵盖 15 个真实 Web 应用和 8 个企业级网络范围,包含 110 个漏洞,重点评估 Web 利用和后利用两个核心阶段的技能。实验显示,GPT-5.5 结合 Codex 表现最佳,且在具体提示下成功率显著提升。研究证实,开放网络靶场对于观察真实条件下 AI 新兴进攻能力至关重要。
AI 推荐理由
论文核心评估 Agent 在真实网络环境中的工具使用、漏洞利用及攻击技能,属于技能学习与应用的关键研究。
研究机构
Fudan University
论文信息