摘要
多模态大语言模型(MLLMs)的快速发展推动了工作流程自动化;然而,现有研究主要关注静态环境中的性能上限,忽视了在随机真实世界部署中的鲁棒性。我们识别出三个关键挑战:动态任务调度、不确定性下的主动探索以及从经验中持续学习。为弥补这一差距,我们引入了 exttt{method},一个动态评估环境,模拟“实习生”代理在新环境中持续探索。与传统基准不同, exttt{method}从三个方面评估代理:(1) 流式任务的上下文感知调度;(2) 通过主动探索减少幻觉的信息获取;(3) 通过从基于规则的动态生成任务中提炼通用策略实现持续进化。实验表明,最先进的代理在动态环境中存在显著缺陷,尤其是在主动探索和持续学习方面。我们的工作建立了一个评估代理可靠性的框架,将评估从静态测试转向现实、面向生产的场景。
AI 推荐理由
论文涉及Agent在动态环境中的持续学习与探索,与Memory相关但非核心主题。
论文信息