Question Answering Data Lake Multi-hop Reasoning Benchmark LLM Agent
摘要

近期大语言模型在基于阅读的问答任务中进展迅速,但现实问题往往缺乏明确证据,需从海量数据湖中检索。针对现有基准缺失的问题,本文提出 LakeQA,一个强调搜索与推理协同能力的综合性基准。该基准基于约 9.5TB 的异构文本资源(含维基百科及政府公开数据),涵盖结构化与非结构化数据,并由专家标注。任务要求智能体进行长程多跳推理,自主发现文档并整合跨源证据以生成答案。实验表明,即使是前沿模型在该基准上也表现不佳,验证了其挑战性。

AI 推荐理由

论文核心评估多跳推理能力,但侧重于基准构建而非推理机制创新。

研究机构
Columbia University New York University
论文信息
作者 Haonan Wang, Jiaxiang Liu, Yurong Liu, Austin Senna Wijaya, Tianle Zhou et al.
发布日期 2026-06-09
arXiv ID 2606.10460
相关性评分 8/10 (高度相关)