Agent Memory Retrieval-Augmented Generation Event Detection Edge-Cloud Architecture Audio Question Answering
摘要

随着工业和消费场景中长时音频数据的增多,如何高效地从多小时录音中回答自然语言问题成为挑战。现有音频-语言模型受限于上下文长度,难以处理长音频问答任务。本文提出LongAudio-RAG(LA-RAG)框架,通过检索并利用时间戳标记的声学事件检测结果,而非原始音频,来增强大语言模型(LLM)输出的准确性。该方法将多小时音频流转换为结构化的事件记录,并存储在SQL数据库中。推理时,系统解析自然语言中的时间引用、分类意图、检索相关事件,并基于这些信息生成答案。为了评估性能,作者构建了一个合成的长音频基准测试集,并展示了该方法在边缘-云端混合环境中的实际部署效果。实验表明,基于事件的结构化检索显著优于传统RAG或文本到SQL方法。

AI 推荐理由

论文涉及基于事件检索的记忆机制,但核心是问答系统而非记忆架构本身。

论文信息
作者 Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser
发布日期 2026-02-16
arXiv ID 2602.14612
相关性评分 6/10 (相关)