摘要
基于LLM的代理通过工具和记忆执行现实世界的工作流程。这些功能使恶意对手也能利用这些代理实施复杂的滥用场景。现有的代理滥用基准主要测试单次提示指令,未能衡量代理在多轮对话中如何逐步协助有害或非法任务。我们引入了STING(非法N步目标执行的顺序测试),这是一个自动化的红队框架,通过构建基于良性角色的逐步非法计划,并使用判断代理跟踪阶段完成情况,对目标代理进行自适应后续探测。我们还提出了一种分析框架,将多轮红队测试建模为首次越狱时间的随机变量,支持发现曲线、按攻击语言划分的危害比归因等分析工具,并引入了一个新指标:受限平均越狱发现。在AgentHarm场景中,STING在非法任务完成率上显著高于单轮提示和面向聊天的多轮基线方法。在六种非英语设置的多语言评估中,我们发现攻击成功率和非法任务完成率在低资源语言中并未一致增加,这与常见聊天机器人的发现不同。总体而言,STING提供了一种实用的方法,在真实部署环境中评估和压力测试代理的滥用行为,其中交互本质上是多轮且常常多语言的。
AI 推荐理由
论文涉及多轮对话中LLM Agent的滥用问题,与记忆机制相关但非核心。
论文信息