摘要
大语言模型(LLM)和视觉语言模型(VLM)在表格推理任务中的评估日益增多,但表格表示形式的作用尚未得到充分探索。实践中,相同表格内容可能以 HTML、Markdown、LaTeX 等不同结构格式或渲染图像形式出现。现有评估往往让内容、格式、布局和模态同时变化,难以隔离表示效应。本文提出 TABVERSE,一个受控的多模态表格基准,将相同表格内容对齐至多种结构格式及渲染图像,并标注问题类别与难度标签。该设计能在固定表格内容的前提下,系统评估表示效应。我们在问答、结构理解能力及结构重建三项任务上评估了 LLM 和 VLM。结果表明,表示选择显著影响表格理解效果。
AI 推荐理由
论文聚焦表格推理任务,评估不同格式对推理性能的影响,是推理能力的关键变量研究。
研究机构
Mohamed bin Zayed University of Artificial Intelligence (MBZUAI)
Singapore University of Technology and Design (SUTD)
论文信息