不确定性量化 智能体记忆 反思机制 AI可靠性
摘要

尽管人工智能代理在长期推理方面表现出色,但其可靠性受到“幻觉螺旋”的严重影响,其中早期的认知错误会不可逆地传播。现有方法面临困境:不确定性量化(UQ)方法通常作为被动传感器,仅用于诊断风险而无法解决;自我反思机制则容易导致连续或无目的的修正。为弥合这一差距,我们提出了一种统一的双过程智能体不确定性量化(AUQ)框架,将语言化的不确定性转化为主动、双向的控制信号。该架构包含两个互补机制:系统1(不确定性感知记忆,UAM),隐式传播语言化置信度和语义解释以防止盲目决策;系统2(不确定性感知反思,UAR),利用这些解释作为理性线索,在必要时触发针对性的推理时解决。这使智能体能够动态平衡高效执行与深度思考。在闭环基准测试和开放性深度研究任务中的大量实验表明,我们的无需训练的方法在性能和轨迹级校准方面均表现优异。我们认为这一原理性的AUQ框架是迈向可靠智能体的重要一步。

AI 推荐理由

论文提出与记忆相关的不确定性量化机制,涉及记忆系统的设计和应用。

论文信息
作者 Jiaxin Zhang, Prafulla Kumar Choubey, Kung-Hsiang Huang, Caiming Xiong, Chien-Sheng Wu
发布日期 2026-01-22
arXiv ID 2601.15703
相关性评分 7/10 (相关)