摘要
计算研究的可重复性通常被认为只需重新运行原始代码并使用提供的数据即可。然而,在实践中,缺少软件包、脆弱的文件路径、版本冲突或逻辑不完整等问题常常导致分析失败,即使材料已共享。本研究探讨了大型语言模型和AI代理是否能够自动诊断和修复此类故障,从而更容易地重复和验证计算结果。我们通过构建一个由五个完全可重复的基于R的社会科学研究组成的受控可重复性测试平台来评估这一点。在清洁的Docker环境中测试了两种自动修复工作流:第一种是基于提示的工作流,通过结构化提示反复查询语言模型;第二种是基于代理的系统,能够自主检查文件、修改代码并重新运行分析。基于提示的运行成功率在31-79%之间,而基于代理的工作流表现显著更好,成功率在69-96%之间。这些结果表明,特别是基于代理的自动化工作流可以显著减少手动努力并提高各种错误类型的重复成功率。
AI 推荐理由
论文探讨了AI代理在自动化修复计算错误中的应用,涉及记忆和状态管理相关机制。
论文信息