Temporal Knowledge Graph Reinforcement Learning Dynamic Reasoning Agent
摘要

时序知识图谱问答(TKGQA)旨在利用时序知识库回答时间敏感问题。尽管大语言模型潜力巨大,但现有提示策略在复杂时间约束下易产生推理幻觉,且静态提示缺乏与环境动态交互的优化能力。为此,本文提出 TKG-Thinker,一种具备自主规划与自适应检索能力的智能体。该方法采用双阶段训练策略:首先利用思维链数据进行监督微调以植入核心规划能力,随后通过多维奖励的强化学习 refine 复杂约束下的推理策略。实验表明,该模型在多个基准数据集上取得了最先进性能,并展现出强大的泛化能力。

AI 推荐理由

论文核心解决时间约束下的推理幻觉问题,通过强化学习优化动态推理策略。

研究机构
武汉大学计算机学院 香港科技大学(广州)科学与技术学院 清华大学人工智能研究院
论文信息
作者 Zihao Jiang, Miao Peng, Zhenyan Shan, Wenjie Xu, Ben Liu et al.
发布日期 2026-02-05
arXiv ID 2602.05818
相关性评分 9/10 (高度相关)