解耦骨架与血肉：基于解耦对齐与结构感知引导的高效多模态表格推理

多模态推理表格理解结构感知 LVLM

摘要

针对大型视觉语言模型（LVLM）在表格图像推理中因布局复杂及结构内容耦合紧密而面临的挑战，本文提出了一种无需昂贵监督训练或外部工具的高效解决方案。首先，引入 DiSCo 框架，通过在多模态对齐中显式分离结构抽象与语义落地，实现模型对表格结构的高效适应。其次，构建 Table-GLS 框架，利用全局到局部的结构引导进行结构化探索与证据支撑的推断。实验表明，该方法显著增强了 LVLM 的表格理解与推理能力，尤其在未见表格结构的泛化性上表现优异。

AI 推荐理由

论文核心解决表格图像推理难题，提出解耦对齐与结构引导推理框架，显著提升 LVLM 推理能力。

研究机构

Harbin Institute of Technology, Shenzhen, China

论文信息

作者 Yingjie Zhu, Xuefeng Bai, Kehai Chen, Yang Xiang, Youcheng Pan et al.

发布日期 2026-02-03

arXiv ID 2602.03491