TemporalBench：评估基于 LLM 的代理在上下文和事件感知时间序列任务上的基准

Time Series Reasoning LLM Benchmark Event-Conditioned Prediction Contextual Understanding

摘要

本文提出 TemporalBench，一个多领域基准，旨在评估智能体在信息逐渐丰富设置下的时间推理行为。该基准涵盖历史结构解读、无上下文预测、上下文时间推理及事件条件预测四个层级，涉及零售、医疗等四大领域。实验表明，高数值预测精度并不等同于鲁棒的上下文或事件感知推理能力，现有框架存在系统性缺陷。该研究揭示了仅关注预测准确率的局限性，为评估代理的时间理解能力提供了新视角。

AI 推荐理由

论文核心评估 LLM 在时间序列中的上下文与事件驱动推理能力，属推理研究。

研究机构

南加利福尼亚大学

论文信息

作者 Muyan Weng, Defu Cao, Wei Yang, Yashaswi Sharma, Yan Liu

发布日期 2026-02-05

arXiv ID 2602.13272