STEM 推理 基准测试 多模态大模型 鲁棒性评估 跨语言性能
摘要

现有符号基准多局限于数学推理且缺乏视觉 grounding 和多语言支持。本文提出 Sci-Rho,一个涵盖五大学科、七种语言的动态基准,包含由专家设计的 4242 个问题模板。每个模板通过可执行 Python 代码生成多样化实例,总计 42420 个样本,均配有推理步骤和真值解。评估 17 个主流 VLM 发现,最坏情况准确率与平均准确率存在显著差距,小模型跨语言性能下降明显。研究强调了超越静态基准评估 VLM 质量的重要性。

AI 推荐理由

论文聚焦 STEM 问题推理能力的鲁棒性评估,虽非提出新推理算法,但深入分析了推理表现。

研究机构
Independent Researcher MBZUAI Binus University Bandung Institute of Technology
论文信息
作者 Muhammad Falensi Azmi, Ikhlasul Akmal Hanif, Vallerie Alexandra Putra, Adi Yeltay, Abdullah Mubarak et al.
发布日期 2026-06-06
arXiv ID 2606.08034
相关性评分 8/10 (高度相关)