Voice Agent Interruption Handling Workflow Recovery Benchmark
摘要

部署在结构化工作流中的语音智能体需在处理频繁用户中断的同时维持多步流程进度。现有基准仅关注中断时机检测,忽视了中断后的恢复行为。本文提出 IHBench 基准,评估智能体在十个企业域的状态机驱动工作流中的中断后恢复能力。实验涵盖六种中断类型,从任务完成度与恢复质量两个维度评分。结果显示闭源模型在鲁棒性上显著优于开源模型,且无明显模态差距,验证了恢复能力作为独立评估维度的重要性。

AI 推荐理由

论文聚焦智能体在多步工作流中被打断后的恢复与状态维持,核心涉及任务规划执行。

研究机构
Boson AI, Toronto, ON, Canada Boson AI
论文信息
作者 Ahmad Salimi, Wentao Ma, Yuzhi Tang, Dongming Shen, Mu Li et al.
发布日期 2026-06-17
arXiv ID 2606.19595
相关性评分 8/10 (高度相关)