从一致性到互补性：用于时间序列理解与推理的对齐且解耦的多模态学习

Multi-modal LLM Time Series Reasoning Modality Alignment Disentangled Learning

摘要

多模态大语言模型（MLLMs）推动了时间序列理解与推理任务的发展，支持通过自然语言查询生成复杂时序动态的文本分析。尽管近期研究尝试融合数值序列与其可视化图表，但细粒度时序错位及语义纠缠仍阻碍了有效的局部解释与互补推理。为此，本文提出 MADI 模型，引入细粒度对齐与解耦交互机制：包括强制异构模态间物理对应关系的补丁级对齐、分离共性语义并协同独特信息的离散解耦交互，以及突出关键查询信号的临界令牌高亮策略。实验表明，MADI 在合成与真实基准测试中均优于通用及专用模型。

AI 推荐理由

论文核心解决多模态时间序列理解中的推理难题，提出对齐与解耦机制以提升推理能力。

研究机构

中国科学院清华大学

论文信息

作者 Hang Ni, Weijia Zhang, Fei Wang, Zezhi Shao, Hao Liu

发布日期 2026-01-29

arXiv ID 2601.21436