摘要
现有的深度研究代理(DRAs)基准将报告生成视为单次写作任务,这与人类研究人员通过自我反思或同行反馈进行迭代撰写和修订的方式存在根本差异。目前尚未探索DRAs是否能可靠地根据用户反馈修订报告。本文引入Mr Dre评估套件,将多轮报告修订作为DRAs的新评估维度。Mr Dre包含两个部分:一是涵盖全面性、事实性和呈现方式的统一长篇报告评估协议;二是用于多轮修订的人工验证反馈模拟流程。对五种不同DRAs的分析揭示了一个关键限制:尽管代理能够处理大部分用户反馈,但在16-27%的先前内容和引用质量上会出现倒退。经过多次修订后,即使表现最佳的代理仍存在显著改进空间,因为它们会破坏反馈范围外的内容,并未能保留早期修改。此外,这些问题是无法通过推理时的修复方法(如提示工程或专门的子代理)轻易解决的。
AI 推荐理由
论文探讨了深度研究代理在多轮报告修订中的表现,涉及记忆保留与更新问题,但非核心Memory机制。
论文信息