摘要
将大型语言模型(LLMs)引入公共卫生政策领域,为处理如疾病控制中心(CDC)等机构维护的大量监管指南提供了变革性方法。然而,LLMs容易产生幻觉,即看似合理但事实错误的陈述,这成为其在信息完整性至关重要的高风险环境中应用的关键障碍。本实证研究探讨了检索增强生成(RAG)架构在降低这些风险方面的有效性,通过权威文档上下文来支撑生成输出。具体而言,该研究比较了基础LLM与采用交叉编码器重排序的基本和高级RAG流程。实验框架使用Mistral-7B-Instruct-v0.2模型和all-MiniLM-L6-v2嵌入模型,处理一组官方CDC政策分析框架和指导文件。分析测量了两种不同的分块策略——基于字符的递归分割和基于语义的标记分割——对系统准确率的影响,通过忠实度和相关性评分在一系列复杂政策场景中进行评估。定量结果表明,尽管基本RAG架构在忠实度(0.621)上显著优于基础模型(0.347),但高级RAG配置实现了更高的忠实度平均值(0.797)。这些结果表明,两阶段检索机制对于实现特定领域政策问答所需的精度至关重要,但文档分割的结构限制仍然是多步骤推理任务的重要瓶颈。
AI 推荐理由
论文探讨了RAG架构在政策问答中的应用,涉及检索与生成结合的记忆机制,但非核心Memory研究。
论文信息