Time Series Reasoning LLM Benchmark Event-Conditioned Prediction Contextual Understanding
摘要

本文提出 TemporalBench,一个多领域基准,旨在评估智能体在信息逐渐丰富设置下的时间推理行为。该基准涵盖历史结构解读、无上下文预测、上下文时间推理及事件条件预测四个层级,涉及零售、医疗等四大领域。实验表明,高数值预测精度并不等同于鲁棒的上下文或事件感知推理能力,现有框架存在系统性缺陷。该研究揭示了仅关注预测准确率的局限性,为评估代理的时间理解能力提供了新视角。

AI 推荐理由

论文核心评估 LLM 在时间序列中的上下文与事件驱动推理能力,属推理研究。

研究机构
南加利福尼亚大学
论文信息
作者 Muyan Weng, Defu Cao, Wei Yang, Yashaswi Sharma, Yan Liu
发布日期 2026-02-05
arXiv ID 2602.13272
相关性评分 9/10 (高度相关)