Agent Memory Temporal Knowledge Graphs Reinforcement Learning Reasoning
摘要

时序知识图谱问答(TKGQA)旨在利用时序知识库回答时间敏感的问题。尽管大语言模型(LLMs)在TKGQA中展现出巨大潜力,但当前的提示策略在两个方面限制了其效果:首先,在复杂的时间约束下容易产生推理幻觉;其次,静态提示限制了模型的自主性和泛化能力,因为缺乏与时序知识图谱(TKGs)环境的动态交互优化。为了解决这些限制,我们提出了TKG-Thinker,一种具备自主规划和自适应检索能力的新颖智能体,用于在时序知识图谱上进行推理。具体而言,TKG-Thinker通过双训练策略与TKGs进行深度时序推理,包括多轮动态交互。我们首先使用链式思维数据进行监督微调(SFT),以培养核心规划能力,随后通过强化学习(RL)阶段利用多维奖励来优化复杂时间约束下的推理策略。实验结果表明,TKG-Thinker在三个开源大语言模型上的基准数据集上实现了最先进的性能,并在复杂的TKGQA设置中表现出强大的泛化能力。

AI 推荐理由

论文核心研究基于Agent的动态记忆与推理机制,提出TKG-Thinker系统以增强模型对时序知识图谱的记忆和推理能力。

论文信息
作者 Zihao Jiang, Miao Peng, Zhenyan Shan, Wenjie Xu, Ben Liu et al.
发布日期 2026-02-05
arXiv ID 2602.05818
相关性评分 8/10 (高度相关)