OOD Detection Embodied AI Visual Memory Refusal Mechanism
摘要

检测无法回答的用户查询对于具身智能体的可靠部署至关重要。然而,现代视觉语言模型(VLM)常在视觉记忆不足以支持查询时仍生成过度自信的答案,导致误导用户或导航错误。本文提出 Semantic Flip 框架,通过独立变换查询和视频记忆合成辅助分布外(OOD)样本,无需外部标注即可训练轻量级拒绝模块。该模块可附加于任何冻结预训练的 VLM 流程之上。实验表明,该方法在两个基准测试中均优于强提示基线,并在新的空间定位拒绝基准 SpaceReject 上取得了优异的 F1 分数。

AI 推荐理由

论文核心在于评估视觉记忆是否足以支撑查询,并基于记忆与查询的语义不匹配构建拒绝机制。

研究机构
RGA Inc.
论文信息
作者 Dongbin Na, Chanwoo Kim, Giyun Choi, Dooyoung Hong
发布日期 2026-06-15
arXiv ID 2606.16898
相关性评分 8/10 (高度相关)