摘要
时序知识图谱问答(TKGQA)旨在利用时序知识库回答时间敏感问题。尽管大语言模型潜力巨大,但现有提示策略在复杂时间约束下易产生推理幻觉,且静态提示缺乏与环境动态交互的优化能力。为此,本文提出 TKG-Thinker,一种具备自主规划与自适应检索能力的智能体。该方法采用双阶段训练策略:首先利用思维链数据进行监督微调以植入核心规划能力,随后通过多维奖励的强化学习 refine 复杂约束下的推理策略。实验表明,该模型在多个基准数据集上取得了最先进性能,并展现出强大的泛化能力。
AI 推荐理由
论文核心解决时间约束下的推理幻觉问题,通过强化学习优化动态推理策略。
研究机构
武汉大学计算机学院
香港科技大学(广州)科学与技术学院
清华大学人工智能研究院
论文信息