摘要
本文研究了运行时轨迹异常检测问题,这是实现可信LLM代理的关键能力。当前的安全措施主要集中在静态输入/输出过滤上,但作者认为确保LLM代理可靠性需要审计中间执行过程。为此,本文提出了轨迹异常检测任务,目标不仅是检测异常,还要实现精确的错误定位,以支持高效的回滚和重试机制。为此,作者构建了TrajBench数据集,并通过实验发现通用LLM在零样本提示下难以识别和定位这些异常。为解决此问题,作者提出TrajAD,一种基于细粒度过程监督训练的专用验证器,其性能优于基线方法,表明专门监督对于构建可信代理至关重要。
AI 推荐理由
论文涉及LLM代理的轨迹异常检测,与执行过程监控相关,间接关联到Agent Memory。
论文信息