流式干预：视频大语言模型能否在错误发生时即时纠正？

Video LLM Skill Guidance Real-time Intervention Synthetic Dataset

摘要

学习日常技能（如烹饪）日益依赖在线视频等教学媒体，这为多模态大语言模型作为任务指导助手提供了契机。此类助手成功的关键在于能在用户犯错时主动干预。为此，本文提出 Ego-MC-Bench 基准，用于评估真实烹饪场景下的反应式分步指导能力。实验表明现有模型在此任务上表现欠佳，主因是缺乏包含错误及适时干预的训练数据。针对此问题，作者构建了 Ego-CoMist 反事实合成数据集，将非交互式视频转化为展示主动干预的监督样本。结果显示，在该数据集上微调显著提升了模型性能，尤其适用于边缘设备的小型高效视频大语言模型。

AI 推荐理由

论文聚焦于视频 LLM 在烹饪技能指导中的实时纠错与干预能力，属于技能学习与应用的核心范畴。

研究机构

Qualcomm AI Research York University Vector Institute for AI

论文信息

作者 Apratim Bhattacharyya, Shweta Mahajan, Sanjay Haresh, Rajeev Yasarla, Reza Pourreza et al.

发布日期 2026-06-08

arXiv ID 2606.09547