摘要
大型语言模型正被广泛应用于金融、医疗等领域的自动决策系统,但时间序列数据的自动处理极具挑战。本文探讨了三种分析路径:提供原始数值数据、利用 LLM 作为编码代理或两者结合。在编码代理模式下,模型通过 Python 代码迭代查询数据。基于两个基准测试的结果显示,具备代码访问能力的代理表现优于仅处理原始数据的模型,准确率提升高达 10%。然而,即便最优代理仍有 22%-34% 的错误率。通过强 LLM 评判者分析输出发现,编码代理虽能选择合适的统计检验,却常忽略关键细节;而原始数据模型则能通过粗略估算得出正确结论。
AI 推荐理由
论文核心评估 LLM 代理在时间序列数据上的推理策略、统计测试选择及逻辑差距。
研究机构
Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University
论文信息