摘要
为缓解大型语言模型(LLMs)中过时或错误信息的问题,常见的解决方案是在上下文中提供更新的事实或通过知识编辑进行更新。然而,这些方法在知识更新未能覆盖模型参数化知识时会引入知识冲突,并导致推理错误。当前针对该问题的基准测试主要关注单一知识更新和事实回忆,而未评估这些更新对下游推理的影响。本文提出TRACK(Testing Reasoning Amid Conflicting Knowledge),一个新的基准测试,用于研究LLMs在初始参数化知识与新知识冲突的情况下,如何通过多步推理传播新知识。TRACK涵盖三个推理密集型场景(WIKI、CODE和MATH),并引入多个现实冲突以模拟真实世界的复杂性。实验结果表明,向模型提供更新的事实可能比不提供任何更新的事实更差,且随着提供更多更新事实,性能下降加剧。这种失败源于模型无法正确整合更新事实以及即使整合后仍存在推理缺陷。TRACK为衡量和指导未来在多步推理中传播冲突知识的研究提供了严谨的新基准。
AI 推荐理由
论文探讨了LLM在多步推理中知识冲突的传播问题,与Agent Memory中的知识更新和冲突处理密切相关。
论文信息