摘要
随着工具使用和代理式大语言模型(LLMs)的快速发展,检索增强生成(RAG)正从单次、被动检索演变为多轮、决策驱动的证据获取。尽管在开放领域取得了显著成果,现有代理搜索框架通常将长文档视为扁平化的块集合,未能充分利用文档本身的先验知识,如层次组织和顺序论述结构。本文提出DeepRead,一种结构感知的多轮文档推理代理,显式地利用这些先验知识进行长文档问答。DeepRead利用基于LLM的OCR模型将PDF转换为保留标题和段落边界的结构化Markdown格式。然后在段落级别对文档进行索引,并为每个段落分配一个编码其章节身份和节内顺序的坐标风格元数据键。在此基础上,DeepRead为LLM提供了两种互补工具:一个用于定位相关段落并暴露其结构坐标的检索工具(轻量级扫描上下文),以及一个允许在指定章节和段落范围内连续、保持顺序阅读的ReadSection工具。实验表明,DeepRead在文档问答任务中显著优于Search-o1风格的代理搜索。检索与阅读工具之间的协同效应也得到了验证。我们的细粒度行为分析揭示了一种类似于人类“定位后阅读”的读取与推理范式。
AI 推荐理由
论文涉及基于文档结构的多轮检索与阅读机制,与Agent Memory中的信息定位和存储相关。
论文信息