Semantic Flip：用于具身问答和空间定位中鲁棒拒绝的合成分布外生成

OOD Detection Embodied AI Visual Memory Refusal Mechanism

摘要

检测无法回答的用户查询对于具身智能体的可靠部署至关重要。然而，现代视觉语言模型（VLM）常在视觉记忆不足以支持查询时仍生成过度自信的答案，导致误导用户或导航错误。本文提出 Semantic Flip 框架，通过独立变换查询和视频记忆合成辅助分布外（OOD）样本，无需外部标注即可训练轻量级拒绝模块。该模块可附加于任何冻结预训练的 VLM 流程之上。实验表明，该方法在两个基准测试中均优于强提示基线，并在新的空间定位拒绝基准 SpaceReject 上取得了优异的 F1 分数。

AI 推荐理由

论文核心在于评估视觉记忆是否足以支撑查询，并基于记忆与查询的语义不匹配构建拒绝机制。

研究机构

RGA Inc.

论文信息

作者 Dongbin Na, Chanwoo Kim, Giyun Choi, Dooyoung Hong

发布日期 2026-06-15

arXiv ID 2606.16898