multimodal reasoning constraint discovery text-to-image editing
摘要

多模态推理的关键挑战在于确定特定任务下哪些视觉依赖是相关的,而不仅是识别可见内容。本文通过文本到图像编辑中的编辑诱导约束发现进行研究,考察模型能否识别必须同步变更的次要区域。实验显示,在无引导提示下模型召回率仅为 46%,而显式提供约束时达 94%。研究表明,特定因果解释是最有效的部分引导。此外,未经验证的自我发现会引入假阳性,抵消召回率增益,表明需注重精度的约束 elicitation。

AI 推荐理由

论文聚焦多模态推理中的约束发现与依赖识别,属推理核心挑战。

研究机构
Central South University
论文信息
作者 Rui Gui
发布日期 2026-06-14
arXiv ID 2606.15982
相关性评分 8/10 (高度相关)