智能体系统 可解释性 AI安全 责任追踪
摘要

智能体系统通过大型语言模型(LLMs)实现了具有目标导向行为的自主系统,具备多步骤规划和与不同环境交互的能力。这些系统在架构和部署上与传统机器学习模型有本质区别,带来了独特的AI安全挑战,包括目标错位、决策错误累积以及智能体间的协调风险。为确保其自主行为的可追溯性和责任性,需在设计中嵌入可解释性与透明度。当前主要针对静态模型的可解释性技术在应用于智能体系统时存在局限性。智能体系统的时序动态性、累积决策及上下文依赖行为要求新的分析方法。本文评估了现有可解释性方法在智能体系统中的适用性与局限性,指出现有方法在提供智能体决策洞察方面的不足。我们提出了未来发展的方向,旨在开发专门针对智能体系统的可解释性技术,并明确指出在智能体生命周期中需要可解释性的关键环节,从目标形成、环境交互到结果评估。这些进展对于确保智能体AI系统的安全和负责任部署至关重要。

AI 推荐理由

论文探讨了智能体系统的可解释性,涉及决策过程和行为追踪,与记忆机制相关。

论文信息
作者 Judy Zhu, Dhari Gandhi, Himanshu Joshi, Ahmad Rezaie Mianroodi, Sedef Akinli Kocak et al.
发布日期 2026-01-23
arXiv ID 2601.17168
相关性评分 7/10 (相关)