TrajAD：用于可信LLM代理的轨迹异常检测

LLM Agent 轨迹异常检测过程监督可信AI

摘要

本文研究了运行时轨迹异常检测问题，这是实现可信LLM代理的关键能力。当前的安全措施主要集中在静态输入/输出过滤上，但作者认为确保LLM代理可靠性需要审计中间执行过程。为此，本文提出了轨迹异常检测任务，目标不仅是检测异常，还要实现精确的错误定位，以支持高效的回滚和重试机制。为此，作者构建了TrajBench数据集，并通过实验发现通用LLM在零样本提示下难以识别和定位这些异常。为解决此问题，作者提出TrajAD，一种基于细粒度过程监督训练的专用验证器，其性能优于基线方法，表明专门监督对于构建可信代理至关重要。

AI 推荐理由

论文涉及LLM代理的轨迹异常检测，与执行过程监控相关，间接关联到Agent Memory。

论文信息

作者 Yibing Liu, Chong Zhang, Zhongyi Han, Hansong Liu, Yong Wang et al.

发布日期 2026-02-06

arXiv ID 2602.06443