超越经验检索：为冻结大语言模型学习生成效用优化的结构化经验

Experience Replay Parameter-Efficient Fine-Tuning LLM Adaptation

摘要

大型语言模型通常呈静态特征，常重复推理或犯错。现有经验复用依赖外部检索，存在基于相似度匹配、引入噪声及增加延迟等问题。本文提出结构化经验适配器模块（SEAM），这是一种轻量级插件，将经验存储于参数中，通过单次前向传播生成针对实例的结构化经验条目，以指导冻结的 LLM 执行器。该模块利用执行器 rollout 和 GRPO 进行效用训练，并可在部署后通过成功轨迹的监督微调进一步优化。数学推理基准实验表明，该方法在低开销下显著提升了各执行器的准确率。

AI 推荐理由

提出结构化经验适配器模块，核心解决静态 LLM 的经验存储与生成机制。

研究机构

DCST, Tsinghua, Beijing, China

论文信息

作者 Xuancheng Li, Haitao Li, Yujia Zhou, Yiqun Liu, Qingyao Ai

发布日期 2026-01-30

arXiv ID 2602.02556