摘要
近期大语言模型在基于阅读的问答任务中进展迅速,但现实问题往往缺乏明确证据,需从海量数据湖中检索。针对现有基准缺失的问题,本文提出 LakeQA,一个强调搜索与推理协同能力的综合性基准。该基准基于约 9.5TB 的异构文本资源(含维基百科及政府公开数据),涵盖结构化与非结构化数据,并由专家标注。任务要求智能体进行长程多跳推理,自主发现文档并整合跨源证据以生成答案。实验表明,即使是前沿模型在该基准上也表现不佳,验证了其挑战性。
AI 推荐理由
论文核心评估多跳推理能力,但侧重于基准构建而非推理机制创新。
研究机构
Columbia University
New York University
论文信息