通过动作驱动数字孪生实现手术室片段的可推理文本到视频检索

Text-to-Video Retrieval LLM Reasoning Digital Twins Operating Room Safety

摘要

针对手术室安全关键的隐含查询检索难题，现有全局嵌入方法缺乏推理能力。本文提出 OR3 方法，将视频片段转化为动作驱动的数字孪生（ActDTs）。该方法利用大语言模型从查询中生成假设性 ActDTs，通过单编码器进行模内匹配，并基于证据的细化机制修正假设以捕捉特定模式。在构建的手术室基准测试中，OR3 显著优于基线，证明其能通过时间动作推理有效区分视觉相似的视频片段。

AI 推荐理由

论文核心解决隐含查询所需的推理问题，利用 LLM 生成假设进行匹配，推理是关键机制。

研究机构

Johns Hopkins University, Baltimore, MD, USA

论文信息

作者 Yiqing Shen, Hao Ding, Mathias Unberath

发布日期 2026-06-15

arXiv ID 2606.17298