摘要
针对手术室安全关键的隐含查询检索难题,现有全局嵌入方法缺乏推理能力。本文提出 OR3 方法,将视频片段转化为动作驱动的数字孪生(ActDTs)。该方法利用大语言模型从查询中生成假设性 ActDTs,通过单编码器进行模内匹配,并基于证据的细化机制修正假设以捕捉特定模式。在构建的手术室基准测试中,OR3 显著优于基线,证明其能通过时间动作推理有效区分视觉相似的视频片段。
AI 推荐理由
论文核心解决隐含查询所需的推理问题,利用 LLM 生成假设进行匹配,推理是关键机制。
研究机构
Johns Hopkins University, Baltimore, MD, USA
论文信息