摘要
本文提出一种框架,通过文件化记忆系统和代理控制的工具调用,将瞬时批评转化为可检索的指导方针,从而降低推理时的计算成本。我们在基于评分标准的反馈基准数据集上评估了该方法。实验表明,增强后的LLM能够快速达到测试时优化流程的性能水平,同时显著减少推理成本。
AI 推荐理由
论文核心提出基于记忆系统的反馈蒸馏框架,明确涉及Agent Memory机制与系统设计。
论文信息
本文提出一种框架,通过文件化记忆系统和代理控制的工具调用,将瞬时批评转化为可检索的指导方针,从而降低推理时的计算成本。我们在基于评分标准的反馈基准数据集上评估了该方法。实验表明,增强后的LLM能够快速达到测试时优化流程的性能水平,同时显著减少推理成本。
论文核心提出基于记忆系统的反馈蒸馏框架,明确涉及Agent Memory机制与系统设计。