3D Scene Generation Multi-Agent System Task Planning Computer Vision
摘要

针对单图像生成 3D 场景中几何与上下文推断的歧义性问题,本文提出一种多智能体编排框架。该方法将生成过程分解为场景初始化、环境构建及多智能体 refinement 三个阶段。特别是在细化阶段,引入规划代理识别结构视觉不一致性,直接修正简单错误并调度专家代理处理复杂局部修订。此外,提出几何感知布局预测器以减少对场景级标注的依赖。实验表明,该方法在几何精度、空间一致性及感知真实感上均优于现有方法。

AI 推荐理由

论文提出多智能体编排框架,核心包含规划代理进行不一致性识别与任务分发,属关键规划机制。

研究机构
Nanyang Technological University University of Oxford
论文信息
作者 Jeonghwan Kim, Yushi Lan, Yongwei Chen, Hieu Trung Nguyen, Chuanyu Pan et al.
发布日期 2026-06-07
arXiv ID 2606.08402
相关性评分 8/10 (高度相关)