摘要
大语言模型在数学推理方面进展显著,但多语言评估基准在难度和时效上滞后于英语。近期 GSM-Symbolic 揭示了同一问题不同实例化下评估的高方差,但仅限英语。本文推出 MGSM-Pro,扩展 MGSM 数据集并引入符号化方法,为每个问题提供五种变体(变换名称、数字及无关上下文)。九种语言评估显示,低资源语言在数字实例变化时性能大幅下降。研究发现部分专有模型对数字变化鲁棒性较差,而 Claude 4.0 Sonnet 及部分开源模型表现更佳。建议每道题至少使用五种数字变体进行评估,以获得更稳健真实的数学推理能力测评。
AI 推荐理由
论文核心聚焦多语言数学推理评估,提出新数据集与策略以增强推理鲁棒性。
研究机构
麦吉尔大学
蒙特利尔理工学院
论文信息