关注差距：诊断文本到图像编辑中的约束发现失败

multimodal reasoning constraint discovery text-to-image editing

摘要

多模态推理的关键挑战在于确定特定任务下哪些视觉依赖是相关的，而不仅是识别可见内容。本文通过文本到图像编辑中的编辑诱导约束发现进行研究，考察模型能否识别必须同步变更的次要区域。实验显示，在无引导提示下模型召回率仅为 46%，而显式提供约束时达 94%。研究表明，特定因果解释是最有效的部分引导。此外，未经验证的自我发现会引入假阳性，抵消召回率增益，表明需注重精度的约束 elicitation。

AI 推荐理由

论文聚焦多模态推理中的约束发现与依赖识别，属推理核心挑战。

研究机构

Central South University

论文信息

作者 Rui Gui

发布日期 2026-06-14

arXiv ID 2606.15982