PT-RAG：面向学术论文的结构保真检索增强生成

摘要

检索增强生成（RAG）在长篇学术论文的问答任务中应用日益广泛，其中在固定token预算下准确分配证据至关重要。现有方法通常将学术论文预处理为无结构块，破坏了其原生的层次结构。这种损失迫使检索在无序空间中进行，导致上下文碎片化、token被错误分配到非证据区域，并增加下游语言模型的推理负担。为解决这些问题，本文提出PT-RAG，一种基于学术论文原生层次结构作为低熵检索先验的RAG框架。PT-RAG首先继承原生层次结构构建结构保真的PaperTree索引，防止源端熵增加；然后设计路径引导检索机制，在固定token预算下对齐查询语义并选择高相关性的根到叶路径，从而获得紧凑、连贯且低熵的检索上下文。与现有RAG方法相比，PT-RAG避免了破坏性预处理引起的熵增加，并为后续检索提供原生低熵结构基础。为评估该设计，本文引入基于熵的结构诊断方法，量化检索碎片化和证据分配准确性。在三个学术问答基准测试中，PT-RAG在段落熵和证据对齐交叉熵方面均优于强基线，表明其减少了上下文碎片化并更精确地分配到证据区域。这些结构优势直接提升了答案质量。

AI 推荐理由

论文聚焦于提升LLM在学术问答中的推理能力，通过结构保真检索增强生成减少上下文碎片化。

研究机构

齐鲁工业大学（山东省科学院）新加坡国立大学

论文信息

作者 Rui Yu, Tianyi Wang, Ruixia Liu, Yinglong Wang

发布日期 2026-02-14

arXiv ID 2602.13647