Agent Safety Self-Evolution Information Theory AI Alignment
摘要

由大型语言模型构建的多智能体系统为可扩展的集体智能和自进化提供了有前景的范式。理想情况下,此类系统能够在完全闭环中实现持续自我改进,同时保持强大的安全对齐——我们称之为自进化三难困境。然而,我们从理论和实证两方面证明,满足持续自进化、完全隔离和安全不变性的智能体社会是不可能的。基于信息论框架,我们将安全形式化为与人类价值观分布的偏离程度。理论上证明,孤立的自进化会导致统计盲点,从而导致系统安全对齐的不可逆退化。来自开放智能体社区(Moltbook)和两个封闭自进化系统的实证和定性结果揭示了与我们理论预测一致的安全性侵蚀现象。我们进一步提出了一些缓解已识别安全问题的解决方案方向。我们的工作确立了自进化AI社会的根本限制,并将讨论从症状驱动的安全补丁转向对内在动态风险的原则性理解,突出了外部监督或新型安全机制的必要性。

AI 推荐理由

论文涉及自进化AI社会中的安全对齐问题,与记忆机制相关但非核心。

论文信息
作者 Chenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou et al.
发布日期 2026-02-10
arXiv ID 2602.09877
相关性评分 6/10 (相关)