摘要
现实部署中的时间序列数据普遍存在不规则性,包括观测异步、缺失值具有信息量以及采样频率多变。然而,现有时间序列问答基准多假设输入规则,导致大模型在不规则条件下的表现评估存在空白。为此,本文提出 IRTS-ToolBench 基准,涵盖 13 个领域的 10 类任务共 1700 个问题。该基准旨在为基于大模型的不规则时间序列分析研究提供标准化输入与可复现的评估协议,填补了领域内的关键缺口。
AI 推荐理由
论文标题明确提及“工具基础推理”,核心解决不规则时间序列问答中的逻辑推断问题。
研究机构
University of Illinois Urbana Champaign
论文信息