RAG 土耳其语 信息检索 生成模型 多语言NLP
摘要

检索增强生成(RAG)能够提升大语言模型的事实准确性,但目前的设计指导主要基于英语,限制了对形态丰富的语言如土耳其语的洞察。本文通过构建一个全面的土耳其语RAG数据集来解决这一问题,该数据集来源于土耳其维基百科和CulturaX,包含问答对及相关段落。我们对RAG流程的七个阶段进行了基准测试,包括查询转换、重排序到答案优化,且未进行任务特定的微调。结果显示,复杂方法如HyDE可将准确率提高至85%,显著高于基线(78.70%)。此外,一种使用交叉编码器重排序和上下文增强的帕累托最优配置也实现了84.60%的性能,但成本更低。研究还表明,过度堆叠生成模块可能会因扭曲形态线索而降低性能,而简单的查询澄清结合稳健的重排序则是一种有效的解决方案。

AI 推荐理由

论文涉及RAG中的信息检索与生成,与Agent Memory相关但非核心主题。

论文信息
作者 Süha Kağan Köse, Mehmet Can Baytekin, Burak Aktaş, Bilge Kaan Görür, Evren Ayberk Munis et al.
发布日期 2026-02-03
arXiv ID 2602.03652
相关性评分 5/10 (一般相关)