摘要
尽管多模态大语言模型(MLLMs)在单轮图表生成任务中表现优异,但其在支持真实世界探索性数据分析方面仍缺乏研究。实际应用中,用户通过多轮交互逐步优化可视化结果,这需要维持共同语境、跟踪先前修改并适应不断变化的偏好。本文提出ChartEditBench,一个基于代码的增量式、视觉导向的图表编辑基准测试集,包含5000个难度可控的修改链和严格人工验证的子集。与以往的一次性基准不同,ChartEditBench评估持续且具有上下文感知能力的编辑性能。我们进一步提出一种稳健的评估框架,通过结合执行准确性检查、像素级视觉相似度和逻辑代码验证,克服LLM-as-a-Judge指标的局限性。实验表明,当前最先进的MLLMs在多轮设置中因错误累积和共享上下文失效而性能显著下降,虽然在风格编辑上表现良好,但在数据驱动的转换任务中频繁出现执行失败。ChartEditBench为基于意图的多模态编程提供了一个具有挑战性的测试平台。
AI 推荐理由
论文涉及多轮交互中保持上下文一致性,与Agent Memory相关但非核心主题。
论文信息