摘要
针对大型视觉语言模型(LVLM)在表格图像推理中因布局复杂及结构内容耦合紧密而面临的挑战,本文提出了一种无需昂贵监督训练或外部工具的高效解决方案。首先,引入 DiSCo 框架,通过在多模态对齐中显式分离结构抽象与语义落地,实现模型对表格结构的高效适应。其次,构建 Table-GLS 框架,利用全局到局部的结构引导进行结构化探索与证据支撑的推断。实验表明,该方法显著增强了 LVLM 的表格理解与推理能力,尤其在未见表格结构的泛化性上表现优异。
AI 推荐理由
论文核心解决表格图像推理难题,提出解耦对齐与结构引导推理框架,显著提升 LVLM 推理能力。
研究机构
Harbin Institute of Technology, Shenzhen, China
论文信息