Experience Replay Parameter-Efficient Fine-Tuning LLM Adaptation
摘要

大型语言模型通常呈静态特征,常重复推理或犯错。现有经验复用依赖外部检索,存在基于相似度匹配、引入噪声及增加延迟等问题。本文提出结构化经验适配器模块(SEAM),这是一种轻量级插件,将经验存储于参数中,通过单次前向传播生成针对实例的结构化经验条目,以指导冻结的 LLM 执行器。该模块利用执行器 rollout 和 GRPO 进行效用训练,并可在部署后通过成功轨迹的监督微调进一步优化。数学推理基准实验表明,该方法在低开销下显著提升了各执行器的准确率。

AI 推荐理由

提出结构化经验适配器模块,核心解决静态 LLM 的经验存储与生成机制。

研究机构
DCST, Tsinghua, Beijing, China
论文信息
作者 Xuancheng Li, Haitao Li, Yujia Zhou, Yiqun Liu, Qingyao Ai
发布日期 2026-01-30
arXiv ID 2602.02556
相关性评分 9/10 (高度相关)