强化学习 时间知识图问答 自主代理 反向课程学习
摘要

时间知识图问答(TKGQA)本质上具有挑战性,因为它需要在动态事实和复杂的时序约束下进行多跳推理。现有方法依赖于固定的流程和昂贵的闭源API,限制了灵活性和可扩展性。我们提出了Temp-R1,这是首个通过强化学习训练的面向TKGQA的端到端自主代理。为了解决单步推理中的认知过载问题,我们扩展了动作空间,加入了专门的内部动作与外部动作。为了防止在简单问题上出现捷径学习,我们引入了反向课程学习,优先训练困难问题,迫使复杂推理能力的发展后再转移到简单情况。我们的8B参数Temp-R1在MultiTQ和TimelineKGQA数据集上取得了最先进的性能,在复杂问题上比强基线提升了19.8%。我们的工作为自主时间推理代理建立了一种新的范式。代码即将公开发布在https://github.com/zjukg/Temp-R1。

AI 推荐理由

论文涉及Agent的自主推理与记忆机制,但未明确聚焦于Memory系统本身。

论文信息
作者 Zhaoyan Gong, Zhiqiang Liu, Songze Li, Xiaoke Guo, Yuanxiang Liu et al.
发布日期 2026-01-26
arXiv ID 2601.18296
相关性评分 6/10 (相关)