TABVERSE：基准测试大语言模型与视觉语言模型的跨格式表格理解能力

Table Understanding Benchmark Multimodal Representation Learning

摘要

大语言模型（LLM）和视觉语言模型（VLM）在表格推理任务中的评估日益增多，但表格表示形式的作用尚未得到充分探索。实践中，相同表格内容可能以 HTML、Markdown、LaTeX 等不同结构格式或渲染图像形式出现。现有评估往往让内容、格式、布局和模态同时变化，难以隔离表示效应。本文提出 TABVERSE，一个受控的多模态表格基准，将相同表格内容对齐至多种结构格式及渲染图像，并标注问题类别与难度标签。该设计能在固定表格内容的前提下，系统评估表示效应。我们在问答、结构理解能力及结构重建三项任务上评估了 LLM 和 VLM。结果表明，表示选择显著影响表格理解效果。

AI 推荐理由

论文聚焦表格推理任务，评估不同格式对推理性能的影响，是推理能力的关键变量研究。

研究机构

Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) Singapore University of Technology and Design (SUTD)

论文信息

作者 Momina Ahsan, Sarfraz Ahmad, Ming Shan Hee, Roy Ka-Wei Lee, Preslav Nakov

发布日期 2026-06-08

arXiv ID 2606.09578