摘要
由于边缘设备计算资源受限,开发具有令人满意的用户体验的完全嵌入式AI伴侣系统面临挑战。现有文献中关于AI伴侣和记忆系统的方案因缺乏计算资源和延迟问题无法直接应用。本文提出了一种交替运行的内存范式:在用户活跃阶段,系统通过轻量级检索实现低延迟、实时对话;在用户不活跃阶段,则进行更复杂的记忆提取、整合与维护。该设计在嵌入式硬件严格限制下最小化了延迟并保持长期个性化。我们还引入了一个AI伴侣基准测试,用于全面评估其对话质量和记忆能力。实验表明,使用Qwen2.5-7B-Instruct量化模型的系统在多数指标上优于无记忆的原始LLM,并可与GPT-3.5(16k上下文窗口)媲美。
AI 推荐理由
论文核心提出了一种针对边缘设备的Agent Memory机制,明确涉及记忆的主动与非主动阶段设计。
论文信息