AutoML Agent Evaluation Workflow Planning Data Science
摘要

本文提出 GRACE-DS,一个用于预部署评估大语言模型驱动的 AutoML 代理的受保护奖励引导修正环境。该系统通过隔离环境中的评估指标,模拟从规划、数据检查、特征工程到模型开发、验证及代码修复的真实工作流。隐藏的可执行验证器不仅衡量预测性能,还检测数据泄露、可复现性、协议有效性及奖励对齐情况。实验表明,灵活的迭代交互机制在端到端测试质量和协议合规性上优于单次生成等基线方法,为评估生产条件下 LLM 代理执行复杂机器学习工作流的能力提供了稳健平台。

AI 推荐理由

论文核心评估 Agent 在数据科学工作流中的多步规划、执行及修正能力。

研究机构
AI Talent Hub ITMO University HSE University
论文信息
作者 Aleksandr Tsymbalov, Danis Zaripov, Artem Epifanov, Anastasya Palienko
发布日期 2026-06-14
arXiv ID 2606.16000
相关性评分 8/10 (高度相关)