Sci-Rho：面向 STEM 问题的多语言视觉 grounding 符号基准

STEM 推理基准测试多模态大模型鲁棒性评估跨语言性能

摘要

现有符号基准多局限于数学推理且缺乏视觉 grounding 和多语言支持。本文提出 Sci-Rho，一个涵盖五大学科、七种语言的动态基准，包含由专家设计的 4242 个问题模板。每个模板通过可执行 Python 代码生成多样化实例，总计 42420 个样本，均配有推理步骤和真值解。评估 17 个主流 VLM 发现，最坏情况准确率与平均准确率存在显著差距，小模型跨语言性能下降明显。研究强调了超越静态基准评估 VLM 质量的重要性。

AI 推荐理由

论文聚焦 STEM 问题推理能力的鲁棒性评估，虽非提出新推理算法，但深入分析了推理表现。

研究机构

Independent Researcher MBZUAI Binus University Bandung Institute of Technology

论文信息

作者 Muhammad Falensi Azmi, Ikhlasul Akmal Hanif, Vallerie Alexandra Putra, Adi Yeltay, Abdullah Mubarak et al.

发布日期 2026-06-06

arXiv ID 2606.08034