MGSM-Pro：一种用于鲁棒多语言数学推理评估的简单策略

mathematical reasoning multilingual evaluation benchmark robustness LLM evaluation

摘要

大语言模型在数学推理方面进展显著，但多语言评估基准在难度和时效上滞后于英语。近期 GSM-Symbolic 揭示了同一问题不同实例化下评估的高方差，但仅限英语。本文推出 MGSM-Pro，扩展 MGSM 数据集并引入符号化方法，为每个问题提供五种变体（变换名称、数字及无关上下文）。九种语言评估显示，低资源语言在数字实例变化时性能大幅下降。研究发现部分专有模型对数字变化鲁棒性较差，而 Claude 4.0 Sonnet 及部分开源模型表现更佳。建议每道题至少使用五种数字变体进行评估，以获得更稳健真实的数学推理能力测评。

AI 推荐理由

论文核心聚焦多语言数学推理评估，提出新数据集与策略以增强推理鲁棒性。

研究机构

麦吉尔大学蒙特利尔理工学院

论文信息

作者 Tianyi Xu, Kosei Uemura, Alfred Malengo Kondoro, Tadesse Destaw Belay, Catherine Nana Nyaah Essuman et al.

发布日期 2026-01-29

arXiv ID 2601.21225