SceneConductor：基于多智能体编排的单图像 3D 场景生成

3D Scene Generation Multi-Agent System Task Planning Computer Vision

摘要

针对单图像生成 3D 场景中几何与上下文推断的歧义性问题，本文提出一种多智能体编排框架。该方法将生成过程分解为场景初始化、环境构建及多智能体 refinement 三个阶段。特别是在细化阶段，引入规划代理识别结构视觉不一致性，直接修正简单错误并调度专家代理处理复杂局部修订。此外，提出几何感知布局预测器以减少对场景级标注的依赖。实验表明，该方法在几何精度、空间一致性及感知真实感上均优于现有方法。

AI 推荐理由

论文提出多智能体编排框架，核心包含规划代理进行不一致性识别与任务分发，属关键规划机制。

研究机构

Nanyang Technological University University of Oxford

论文信息

作者 Jeonghwan Kim, Yushi Lan, Yongwei Chen, Hieu Trung Nguyen, Chuanyu Pan et al.

发布日期 2026-06-07

arXiv ID 2606.08402