摘要
基于大型语言模型(LLM)的智能体广泛应用于客户服务、网络导航和软件工程等领域。随着这些系统变得更加自主并大规模部署,理解智能体采取特定行动的原因对于问责和治理变得越来越重要。然而,现有研究主要集中在失败归因上,以定位不成功轨迹中的显式错误,这不足以解释智能体行为背后的推理过程。为弥补这一差距,我们提出了一种新的通用智能体归因框架,旨在识别驱动智能体行为的内部因素,无论任务结果如何。该框架分层运作以管理智能体交互的复杂性。具体而言,在组件层面,我们使用时间似然动态来识别关键交互步骤;然后在句子层面,我们利用扰动分析来精确定位具体的文本证据。我们在多种智能体场景中验证了该框架,包括标准工具使用和微妙的可靠性风险,如记忆诱导偏差。实验结果表明,所提出的框架能够可靠地识别智能体行为背后的关键历史事件和句子,为更安全和更负责任的智能体系统提供了关键一步。
AI 推荐理由
论文涉及Agent行为解释,提及记忆诱导偏差等与Memory相关的风险因素。
论文信息