摘要
从知识图谱中检索语言模型查询的证据需要在图的广泛搜索与多跳遍历之间取得平衡。基于相似性的检索器虽然能提供覆盖范围,但较为浅层;而基于遍历的方法则依赖于选择种子节点开始探索,当查询跨越多个实体和关系时可能失效。本文提出ARK:自适应知识检索器,一种代理式知识图谱检索器,通过一个包含两个操作工具集的系统,使语言模型能够控制广度与深度之间的权衡:全局词法搜索节点描述符和一跳邻域探索,可组合成多跳遍历。ARK在无需依赖脆弱的种子选择、预设跳数或检索训练的情况下,在广度导向发现和深度导向扩展之间交替进行。ARK根据查询类型调整工具使用,对语言密集型查询使用全局搜索,对关系密集型查询使用邻域探索。在STaRK数据集上,ARK达到59.1%的平均Hit@1和67.4的平均MRR,分别比基于检索和无训练代理方法提高了31.4%和28.0%。最后,我们通过无标签模仿学习将ARK的工具使用轨迹从大型教师模型蒸馏到8B模型中,在AMAZON、MAG和PRIME数据集上分别提升了7.0、26.6和13.5个绝对点的Hit@1,同时保留了高达98.5%的教师模型Hit@1率。
AI 推荐理由
论文涉及知识图谱检索中的广度与深度平衡,与Agent Memory的探索机制相关。
论文信息