LakeQA：面向百万级数据湖的探索性问答基准

Question Answering Data Lake Multi-hop Reasoning Benchmark LLM Agent

摘要

近期大语言模型在基于阅读的问答任务中进展迅速，但现实问题往往缺乏明确证据，需从海量数据湖中检索。针对现有基准缺失的问题，本文提出 LakeQA，一个强调搜索与推理协同能力的综合性基准。该基准基于约 9.5TB 的异构文本资源（含维基百科及政府公开数据），涵盖结构化与非结构化数据，并由专家标注。任务要求智能体进行长程多跳推理，自主发现文档并整合跨源证据以生成答案。实验表明，即使是前沿模型在该基准上也表现不佳，验证了其挑战性。

AI 推荐理由

论文核心评估多跳推理能力，但侧重于基准构建而非推理机制创新。

研究机构

Columbia University New York University

论文信息

作者 Haonan Wang, Jiaxiang Liu, Yurong Liu, Austin Senna Wijaya, Tianle Zhou et al.

发布日期 2026-06-09

arXiv ID 2606.10460