从文本到3D的“零训练”革命！英伟达&康奈尔大学提出 ArtiScene：通过2D中介实现高保真3D场景合成。

发布日期: 2025-06-30

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

由英伟达和康奈尔大学提出的ArtiScene是一种无需训练、语言驱动的3D场景生成流程，它可以根据文本提示，设计出丰富多样、美观且易于编辑的场景，涵盖各种类别和风格。下图中展示了四种结果，并附有从不同角度放大的细节。所有元素均已生成，包括家具、装饰物、场景布局、地板和墙壁。首先利用文本转图像模型生成一个2D图像中介，然后从中提取丰富的布局和样式信息。例如，最右边一列显示了通过对象分割和LLM驱动的描述从图像中获取的对象外观和几何形状。
下面是围绕其中心旋转的生成的3D场景的视频渲染
论文成果（左）和Holodeck的成果（右）。每对的风格都写在Holodeck的一面。
论文：https ://arxiv. org/abs/2506. 00742
主页：https ://artiscene-cvpr. github.io/
代码：https ://github. com/jaclyngu/artiscene（即将开源）
官网：https ://research. nvidia.com/labs/dir/artiscene/
设计3D场景传统上是一项颇具挑战性且费力的任务，既需要艺术专业知识，也需要熟练操作复杂的软件。文本转3D生成技术的最新进展极大地简化了这一过程，用户只需基于简单的文本描述即可创建场景。然而，由于这些方法通常需要额外的训练或情境学习，其性能常常受到高质量3D数据有限的限制。相比之下，从网络规模图像中学习的现代文本转图像模型可以生成具有多样化、可靠空间布局以及一致、视觉吸引力风格的场景。
论文的关键见解是，与其直接从3D场景中学习，不如利用生成的2D图像作为中介来指导3D合成。有鉴于此论文推出了ArtiScene，这是一种无需训练的自动化场景设计流程，它将自由格式文本转图像生成的灵活性与2D中介布局的多样性和可靠性相结合。我们根据场景描述生成二维中间图像，提取物体形状和外观，创建三维模型，并结合从同一图像中提取的几何形状、位置和姿态，将它们组装成最终场景。ArtiScene可推广至各种场景和风格，其布局和美学质量的量化指标远超最先进的基准测试。在广泛的用户研究中，它的平均胜率为74. 89%，在GPT评估中则为95. 07%。
ArtiScene以文本提示作为输入，首先为图像中介提示一个文本转图像模型（黄线）。然后，通过物体检测、图像修复以及提示ChatGPT描述检测到的物体的外观和几何形状，我们为每个物体获取一个3D模型（蓝线）。同时，我们将单目深度估计与先前检测到的2D边界框相结合，以估计每个物体的3D边界框（红线）。我们还合成了室内场景的地板和墙壁纹理（绿线）。最后，我们将这些获取的模型和布局信息组合起来，得到最终的3D场景。
与Holodeck进行定性比较。(a)中，论文展示了从MIT数据集中采样的更多场景类别；(b)中，我们展示了一个固定类别（卧室），其中包含用于评估的不同风格和主题。论文方法在广泛的场景类别和美学方面都具有稳健性。
对象编辑。由于ArtiScene通过生成单个3D对象并进行组装来生成场景，因此它支持快速简便的模块化编辑。
论文提出了一种新颖的文本转3D室内场景生成方法，该方法以2D图像为中介。通过广泛的评估，我们证明了我们的成果在多样性、视觉质量和物理合理性方面的优越性。ArtiScene为各种应用铺平了道路，例如复杂的3D室内设计以及沉浸式增强现实和虚拟现实。
感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术，欢迎一起交流学习💗～