Video LLM Skill Guidance Real-time Intervention Synthetic Dataset
摘要

学习日常技能(如烹饪)日益依赖在线视频等教学媒体,这为多模态大语言模型作为任务指导助手提供了契机。此类助手成功的关键在于能在用户犯错时主动干预。为此,本文提出 Ego-MC-Bench 基准,用于评估真实烹饪场景下的反应式分步指导能力。实验表明现有模型在此任务上表现欠佳,主因是缺乏包含错误及适时干预的训练数据。针对此问题,作者构建了 Ego-CoMist 反事实合成数据集,将非交互式视频转化为展示主动干预的监督样本。结果显示,在该数据集上微调显著提升了模型性能,尤其适用于边缘设备的小型高效视频大语言模型。

AI 推荐理由

论文聚焦于视频 LLM 在烹饪技能指导中的实时纠错与干预能力,属于技能学习与应用的核心范畴。

研究机构
Qualcomm AI Research York University Vector Institute for AI
论文信息
作者 Apratim Bhattacharyya, Shweta Mahajan, Sanjay Haresh, Rajeev Yasarla, Reza Pourreza et al.
发布日期 2026-06-08
arXiv ID 2606.09547
相关性评分 8/10 (高度相关)