对话代理 强化学习 多轮交互 检索生成
摘要

大型语言模型(LLMs)已成为人机交互的重要接口,支持通过自然、多轮对话进行信息检索和任务协助。在多轮对话中,用户意图随着交互而演变,需要上下文解释、查询重写以及检索与生成之间的动态协调。现有研究通常采用静态的重写、检索和生成流程,分别优化不同步骤,忽视了混合主动行为的同步优化。尽管深度搜索代理的最新进展展示了通过推理联合优化检索和生成的有效性,但这些方法主要针对单轮场景,可能难以处理多轮交互。本文提出了一种跨轮次交织搜索与推理的对话代理,通过强化学习训练并结合定制奖励机制,使代理能够学习探索性和适应性行为以应对不断变化的用户目标。实验结果表明,在四个广泛使用的对话基准测试中,该方法优于多个现有强基线。

AI 推荐理由

论文涉及多轮对话中上下文依赖的意图演化,与Agent Memory相关,但非核心主题。

论文信息
作者 Fengran Mo, Yifan Gao, Sha Li, Hansi Zeng, Xin Liu et al.
发布日期 2026-01-19
arXiv ID 2601.13115
相关性评分 7/10 (相关)