摘要
现有符号基准多局限于数学推理且缺乏视觉 grounding 和多语言支持。本文提出 Sci-Rho,一个涵盖五大学科、七种语言的动态基准,包含由专家设计的 4242 个问题模板。每个模板通过可执行 Python 代码生成多样化实例,总计 42420 个样本,均配有推理步骤和真值解。评估 17 个主流 VLM 发现,最坏情况准确率与平均准确率存在显著差距,小模型跨语言性能下降明显。研究强调了超越静态基准评估 VLM 质量的重要性。
AI 推荐理由
论文聚焦 STEM 问题推理能力的鲁棒性评估,虽非提出新推理算法,但深入分析了推理表现。
研究机构
Independent Researcher
MBZUAI
Binus University
Bandung Institute of Technology
论文信息