Text-to-Video Retrieval LLM Reasoning Digital Twins Operating Room Safety
摘要

针对手术室安全关键的隐含查询检索难题,现有全局嵌入方法缺乏推理能力。本文提出 OR3 方法,将视频片段转化为动作驱动的数字孪生(ActDTs)。该方法利用大语言模型从查询中生成假设性 ActDTs,通过单编码器进行模内匹配,并基于证据的细化机制修正假设以捕捉特定模式。在构建的手术室基准测试中,OR3 显著优于基线,证明其能通过时间动作推理有效区分视觉相似的视频片段。

AI 推荐理由

论文核心解决隐含查询所需的推理问题,利用 LLM 生成假设进行匹配,推理是关键机制。

研究机构
Johns Hopkins University, Baltimore, MD, USA
论文信息
作者 Yiqing Shen, Hao Ding, Mathias Unberath
发布日期 2026-06-15
arXiv ID 2606.17298
相关性评分 8/10 (高度相关)