LLM 欺骗性证据 信念系统 治理机制 实验评估
摘要

为了可靠地协助人类决策,大型语言模型(LLMs)必须在面对误导性信息时保持事实性的内部信念。尽管当前模型能够抵抗显式的虚假信息,但本文发现它们对复杂且难以反驳的欺骗性证据存在根本性漏洞。为系统性地探索这一弱点,作者提出了MisBelief框架,通过多角色LLMs之间的协作、多轮交互生成误导性证据。该过程模拟了细微的可反驳推理和逐步优化,从而创建出逻辑上具有说服力但事实性欺骗的主张。利用MisBelief,作者生成了4800个实例,评估了7种代表性LLMs的表现。结果显示,虽然模型对直接的虚假信息具有鲁棒性,但对这种精炼的欺骗性证据高度敏感:虚假陈述的信念评分平均提高了93.0%,从根本上损害了下游推荐效果。为此,作者提出了一种治理机制——欺骗意图屏蔽(DIS),通过推断证据背后的欺骗意图提供早期预警信号。实证结果表明,DIS能够有效缓解信念变化,并促进更谨慎的证据评估。

AI 推荐理由

论文探讨了LLM对欺骗性证据的易感性,涉及记忆系统中信念更新的问题,但非核心Memory机制研究。

论文信息
作者 Herun Wan, Jiaying Wu, Minnan Luo, Fanxiao Li, Zhi Zeng et al.
发布日期 2026-01-09
arXiv ID 2601.05478
相关性评分 6/10 (相关)