TKG-Thinker：通过智能体强化学习实现时序知识图谱上的动态推理

Agent Memory Temporal Knowledge Graphs Reinforcement Learning Reasoning

摘要

时序知识图谱问答（TKGQA）旨在利用时序知识库回答时间敏感的问题。尽管大语言模型（LLMs）在TKGQA中展现出巨大潜力，但当前的提示策略在两个方面限制了其效果：首先，在复杂的时间约束下容易产生推理幻觉；其次，静态提示限制了模型的自主性和泛化能力，因为缺乏与时序知识图谱（TKGs）环境的动态交互优化。为了解决这些限制，我们提出了TKG-Thinker，一种具备自主规划和自适应检索能力的新颖智能体，用于在时序知识图谱上进行推理。具体而言，TKG-Thinker通过双训练策略与TKGs进行深度时序推理，包括多轮动态交互。我们首先使用链式思维数据进行监督微调（SFT），以培养核心规划能力，随后通过强化学习（RL）阶段利用多维奖励来优化复杂时间约束下的推理策略。实验结果表明，TKG-Thinker在三个开源大语言模型上的基准数据集上实现了最先进的性能，并在复杂的TKGQA设置中表现出强大的泛化能力。

AI 推荐理由

论文核心研究基于Agent的动态记忆与推理机制，提出TKG-Thinker系统以增强模型对时序知识图谱的记忆和推理能力。

论文信息

作者 Zihao Jiang, Miao Peng, Zhenyan Shan, Wenjie Xu, Ben Liu et al.

发布日期 2026-02-05

arXiv ID 2602.05818