摘要
大型语言模型(LLMs)在自动化现实世界中的漏洞检测方面面临两个关键限制:漏洞模式的异质性削弱了单一统一模型的有效性,且对大量弱点类别的手动提示工程不可扩展。为了解决这些挑战,我们提出了MulVul,一种用于精确且广泛覆盖漏洞检测的检索增强型多智能体框架。MulVul采用从粗到细的策略:首先由Router代理预测前k个粗粒度类别,然后将输入转发给专门的Detector代理以识别具体的漏洞类型。两个代理都配备了检索工具,主动从漏洞知识库中获取证据以减少幻觉。关键的是,为了自动生成专用提示,我们设计了Cross-Model Prompt Evolution,这是一种提示优化机制,其中生成器LLM迭代优化候选提示,而不同的执行器LLM验证其有效性。这种解耦减轻了单模型优化中固有的自我校正偏差。在130种CWE类型上评估,MulVul实现了34.79%的Macro-F1,优于最佳基线41.5%。消融研究验证了跨模型提示进化,其性能比手动提示提高了51.6%,有效处理了多样化的漏洞模式。
AI 推荐理由
论文提及检索增强和证据来源,与记忆机制相关,但非核心主题。
论文信息