LLM 编码代理能推理时间序列吗？

Time Series Analysis Code Agent Reasoning Evaluation LLM Benchmark

摘要

大型语言模型正被广泛应用于金融、医疗等领域的自动决策系统，但时间序列数据的自动处理极具挑战。本文探讨了三种分析路径：提供原始数值数据、利用 LLM 作为编码代理或两者结合。在编码代理模式下，模型通过 Python 代码迭代查询数据。基于两个基准测试的结果显示，具备代码访问能力的代理表现优于仅处理原始数据的模型，准确率提升高达 10%。然而，即便最优代理仍有 22%-34% 的错误率。通过强 LLM 评判者分析输出发现，编码代理虽能选择合适的统计检验，却常忽略关键细节；而原始数据模型则能通过粗略估算得出正确结论。

AI 推荐理由

论文核心评估 LLM 代理在时间序列数据上的推理策略、统计测试选择及逻辑差距。

研究机构

Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University

论文信息

作者 Filip Rechtorík, Ondřej Dušek, Zdeněk Kasner

发布日期 2026-06-15

arXiv ID 2606.16545