摘要
在过去十年中,可解释AI主要关注于解释单个模型预测,生成与固定决策结构相关的后验解释。随着大型语言模型(LLMs)的发展,代理AI系统的行为表现为多步骤轨迹。在这些系统中,成功与失败由一系列决策决定,而非单一输出。尽管已有相关方法,但如何将静态预测的解释方法应用于代理系统仍不明确。本文通过比较基于属性的解释与基于轨迹的诊断方法,填补了静态与代理可解释性之间的差距。实验表明,基于属性的方法在静态任务中表现稳定,但在代理轨迹中无法可靠诊断执行级失败。相比之下,基于轨迹的评估能够有效定位行为失效,并揭示状态跟踪不一致性是失败运行的主要原因。这些发现推动了对代理系统轨迹级可解释性的研究。
AI 推荐理由
论文探讨了代理系统中的可解释性问题,涉及状态跟踪不一致等与记忆相关的内容。
论文信息