智能体不确定性量化

不确定性量化智能体记忆反思机制 AI可靠性

摘要

尽管人工智能代理在长期推理方面表现出色，但其可靠性受到“幻觉螺旋”的严重影响，其中早期的认知错误会不可逆地传播。现有方法面临困境：不确定性量化（UQ）方法通常作为被动传感器，仅用于诊断风险而无法解决；自我反思机制则容易导致连续或无目的的修正。为弥合这一差距，我们提出了一种统一的双过程智能体不确定性量化（AUQ）框架，将语言化的不确定性转化为主动、双向的控制信号。该架构包含两个互补机制：系统1（不确定性感知记忆，UAM），隐式传播语言化置信度和语义解释以防止盲目决策；系统2（不确定性感知反思，UAR），利用这些解释作为理性线索，在必要时触发针对性的推理时解决。这使智能体能够动态平衡高效执行与深度思考。在闭环基准测试和开放性深度研究任务中的大量实验表明，我们的无需训练的方法在性能和轨迹级校准方面均表现优异。我们认为这一原理性的AUQ框架是迈向可靠智能体的重要一步。

AI 推荐理由

论文提出与记忆相关的不确定性量化机制，涉及记忆系统的设计和应用。

论文信息

作者 Jiaxin Zhang, Prafulla Kumar Choubey, Kung-Hsiang Huang, Caiming Xiong, Chien-Sheng Wu

发布日期 2026-01-22

arXiv ID 2601.15703