用户日志 持续学习 模型优化 反馈处理
摘要

大规模训练数据和模型参数一直是推动大型语言模型(LLMs)进步的关键因素,但这一范式正因高质量数据稀缺和计算成本上升而受到限制。因此,近期研究更加关注从真实世界部署中进行持续学习,其中用户交互日志提供了丰富的实际人类反馈和程序性知识。然而,由于用户日志的无结构性和噪声性,从其学习具有挑战性。传统LLM系统难以区分有用反馈信号与噪声行为,且用户日志收集与模型优化之间的差异进一步加剧了问题。为此,我们提出了UNO(User log-driveN Optimization),一个统一框架,用于利用用户日志改进LLM系统(LLMsys)。UNO首先将日志提炼为半结构化规则和偏好对,然后采用查询与反馈驱动的聚类方法管理数据异质性,并最终量化模型先验知识与日志数据之间的认知差距。该评估指导LLMsys自适应地过滤噪声反馈,并构建不同模块以处理从用户日志中提取的基本经验和反思经验,从而提升未来响应效果。大量实验表明,UNO在有效性和效率方面达到最先进水平,显著优于检索增强生成(RAG)和基于记忆的基线方法。

AI 推荐理由

论文涉及用户日志驱动的模型优化,与记忆机制相关但非核心主题。

论文信息
作者 Changyue Wang, Weihang Su, Qingyao Ai, Yiqun Liu
发布日期 2026-02-06
arXiv ID 2602.06470
相关性评分 6/10 (相关)