摘要
检索增强生成(RAG)在长篇学术论文的问答任务中应用日益广泛,其中在固定token预算下准确分配证据至关重要。现有方法通常将学术论文预处理为无结构的块,破坏了其原生的层次结构。这种损失迫使检索在无序空间中进行,导致上下文碎片化、token被错误分配到非证据区域,并增加下游语言模型的推理负担。为此,本文提出PT-RAG,一种RAG框架,将学术论文的原生层次结构视为低熵检索先验。PT-RAG首先继承原生层次结构构建结构保真的PaperTree索引,防止源端熵增加;然后设计路径引导检索机制,将查询语义对齐到相关部分,并在固定token预算下选择高相关性的根到叶路径,从而生成紧凑、连贯且低熵的检索上下文。与现有RAG方法相比,PT-RAG避免了破坏性预处理引起的熵增加,并为后续检索提供了原生的低熵结构基础。为评估该设计,本文引入基于熵的结构诊断方法,量化检索碎片化和证据分配准确性。在三个学术问答基准测试中,PT-RAG在段落熵和证据对齐交叉熵方面均优于强基线,表明其上下文碎片化减少且更精确地分配到证据区域。这些结构优势直接提升了答案质量。
AI 推荐理由
论文涉及RAG框架中信息检索与上下文构建,与Agent Memory中的证据分配和结构保持相关。
论文信息