LLM 智能体诊断 基础设施管理 根因分析
摘要

大规模电信和数据中心基础设施依赖于多层次的服务和资源模型,其中故障会跨物理和逻辑组件传播并影响多个客户。传统的根本原因分析方法依赖于硬编码的图遍历算法或基于规则的相关引擎,这些方法维护成本高且与基础设施模型紧密耦合。本文提出了一种智能体诊断框架,通过模型上下文协议(MCP)暴露受限的工具空间,使大型语言模型(LLM)能够逐步进行调查。该智能体通过调用服务查找、依赖检索、结构化和非结构化数据以及事件分析等工具,自主导航基础设施模型。我们定义了一个调查协议,以结构化智能体的推理过程,确保其扎根性、可重复性和对缺失或模糊信息的安全处理。这项工作为自主事件解决和变更影响缓解奠定了基础。未来的系统不仅能够诊断和修复基础设施故障,还能预测计划变更对服务和客户的影响,使运营商在执行维护操作前能够降低风险。

AI 推荐理由

论文涉及基于LLM的智能体进行基础设施诊断,使用工具空间和协议进行推理,与Agent Memory有一定关联。

论文信息
作者 Nicolas Tacheny
发布日期 2026-01-12
arXiv ID 2601.07342
相关性评分 6/10 (相关)