摘要
多模态推理的关键挑战在于确定特定任务下哪些视觉依赖是相关的,而不仅是识别可见内容。本文通过文本到图像编辑中的编辑诱导约束发现进行研究,考察模型能否识别必须同步变更的次要区域。实验显示,在无引导提示下模型召回率仅为 46%,而显式提供约束时达 94%。研究表明,特定因果解释是最有效的部分引导。此外,未经验证的自我发现会引入假阳性,抵消召回率增益,表明需注重精度的约束 elicitation。
AI 推荐理由
论文聚焦多模态推理中的约束发现与依赖识别,属推理核心挑战。
研究机构
Central South University
论文信息