摘要
针对单图像生成 3D 场景中几何与上下文推断的歧义性问题,本文提出一种多智能体编排框架。该方法将生成过程分解为场景初始化、环境构建及多智能体 refinement 三个阶段。特别是在细化阶段,引入规划代理识别结构视觉不一致性,直接修正简单错误并调度专家代理处理复杂局部修订。此外,提出几何感知布局预测器以减少对场景级标注的依赖。实验表明,该方法在几何精度、空间一致性及感知真实感上均优于现有方法。
AI 推荐理由
论文提出多智能体编排框架,核心包含规划代理进行不一致性识别与任务分发,属关键规划机制。
研究机构
Nanyang Technological University
University of Oxford
论文信息