摘要
针对扩散大语言模型(dLLM)在搜索智能体中面临的延迟挑战与智能体能力不足问题,本文提出 DLLM-Searcher 框架。为解决能力缺陷,设计了包含智能体监督微调与方差减少偏好优化的两阶段后训练流程,显著增强模型的信息检索与推理技能。为降低延迟,利用 dLLM 并行生成特性提出“并行推理与行动”(P-ReAct)新范式,使模型在等待工具响应时能持续思考。实验表明,该方法性能媲美主流方案,并实现约 15% 的推理加速。
AI 推荐理由
论文核心解决 dLLM 工具调用能力弱的问题,通过微调增强其搜索与推理技能。
研究机构
上海交通大学
清华大学
论文信息