Multi-hop QA Cultural Understanding Reasoning Benchmark Indonesian Language
摘要

理解文化需要跨越语境、传统和隐性社会知识进行推理,而非仅仅回忆孤立事实。然而,现有文化问答基准多依赖单跳问题,导致模型可能利用浅层线索而非展示真正的文化推理。本文提出了 ID-MoCQA,这是首个基于印尼传统的大规模多跳问答数据集,提供英印双语版本。我们提出了一种新框架,能将单跳文化问题系统性地转化为涵盖六类线索(如常识、时间、地理)的多跳推理链。通过结合专家审查和“大模型即裁判”过滤的多阶段验证流程,确保了高质量的数据对。评估结果显示,最先进模型在文化推理任务上存在显著差距,尤其是在需要细微推断的任务中。ID-MoCQA 为提升大语言模型的文化能力提供了极具挑战性的基准。

AI 推荐理由

论文核心在于构建多跳推理数据集以评估模型在文化语境下的深层推理能力,直接针对推理机制。

研究机构
谢菲尔德大学计算机科学学院,英国谢菲尔德 印度尼西亚国家大学信息学院,印度尼西亚雅加达
论文信息
作者 Vynska Amalia Permadi, Xingwei Tan, Nafise Sadat Moosavi, Nikos Aletras
发布日期 2026-02-03
arXiv ID 2602.03709
相关性评分 9/10 (高度相关)