摘要
针对多模态模型在复杂合成任务中推理能力不足且将生成与编辑割裂的问题,本文提出 UniReason 框架。该框架通过两种互补的推理范式统一了图像生成与编辑:利用增强世界知识的文本推理推断隐含信息,并借助编辑能力进行细粒度视觉修正以通过自我反思纠正错误。这种方法在共享架构中模拟了人类“规划后修正”的认知过程。研究构建了包含三十万样本的大规模推理中心数据集及智能体生成的视觉修正语料库。实验表明,UniReason 在 WISE 等推理密集型基准测试中表现优异,同时保持了卓越的通用合成能力。
AI 推荐理由
论文提出统一推理框架,核心在于利用世界知识进行文本推理及自我反思修正视觉错误。
研究机构
清华大学
论文信息