LLM Agent 轨迹异常检测 过程监督 可信AI
摘要

本文研究了运行时轨迹异常检测问题,这是实现可信LLM代理的关键能力。当前的安全措施主要集中在静态输入/输出过滤上,但作者认为确保LLM代理可靠性需要审计中间执行过程。为此,本文提出了轨迹异常检测任务,目标不仅是检测异常,还要实现精确的错误定位,以支持高效的回滚和重试机制。为此,作者构建了TrajBench数据集,并通过实验发现通用LLM在零样本提示下难以识别和定位这些异常。为解决此问题,作者提出TrajAD,一种基于细粒度过程监督训练的专用验证器,其性能优于基线方法,表明专门监督对于构建可信代理至关重要。

AI 推荐理由

论文涉及LLM代理的轨迹异常检测,与执行过程监控相关,间接关联到Agent Memory。

论文信息
作者 Yibing Liu, Chong Zhang, Zhongyi Han, Hansong Liu, Yong Wang et al.
发布日期 2026-02-06
arXiv ID 2602.06443
相关性评分 7/10 (相关)