摘要
本文提出 TemporalBench,一个多领域基准,旨在评估智能体在信息逐渐丰富设置下的时间推理行为。该基准涵盖历史结构解读、无上下文预测、上下文时间推理及事件条件预测四个层级,涉及零售、医疗等四大领域。实验表明,高数值预测精度并不等同于鲁棒的上下文或事件感知推理能力,现有框架存在系统性缺陷。该研究揭示了仅关注预测准确率的局限性,为评估代理的时间理解能力提供了新视角。
AI 推荐理由
论文核心评估 LLM 在时间序列中的上下文与事件驱动推理能力,属推理研究。
研究机构
南加利福尼亚大学
论文信息