2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程


2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生,导师为AbeDavis教授和NoahSnavely教授,研究方向专注于生成式AI与多模态大模型。本项目为作者在英伟达实习期间完成的工作。
想象一下,你是一位游戏设计师,正在为一个奇幻RPG游戏搭建场景。你需要创建一个\“精灵族树屋村落\“——参天古木和树屋、发光的蘑菇路灯、半透明的纱幔帐篷…传统工作流程中,这可能需要数周时间:先手工建模每个3D资产,再逐个调整位置和材质,最后反复测试光照效果……总之就是一个字,难。
这种困境正是当前3D内容创作领域的缩影。传统3D设计软件如Blender、Maya虽然功能强大,但学习曲线陡峭。近年来兴起的文本生成3D技术让用户可以通过文字描述生成3D内容,但这些方法要么依赖有限的3D训练数据,遇到新场景类型或风格就容易翻车,要么在预测完场景中的物体信息后,要从特定的3D模型池中寻找并调用出与预测特征最相近的,因此最后的场景质量非常依赖于模型池中到底有什么,很容易导致风格不统一。
与此同时,文本生成2D图像技术(如GPT-4o、Flux)却突飞猛进。这些模型通过海量互联网图像训练,已经能生成布局合理、风格统一的复杂场景图。这引发了一个关键思考:能否让2D图像充当\“中间商\“,先把用户输入文字转化为高质量场景图,再从中提取3D信息?NVIDIA与康奈尔大学联合团队的最新研究ArtiScene,正是基于这一insight提出的全新解决方案。
文章链接:https ://arxiv. org/abs/2506. 00742
文章网站:https ://artiscene-cvpr. github.io/(代码即将开源)
英伟达网站:https ://research. nvidia.com/labs/dir/artiscene/

核心贡献:无需训练的智能3D场景工厂
ArtiScene的核心创新在于构建了一个完全无需额外训练的自动化流水线,将文本生成图像的前沿能力与3D重建技术巧妙结合。它一共包含五步:
1. 2D图像作为\“设计蓝图\“
系统首先用扩散模型生成等轴测视角的场景图。这种视角常用于建筑设计示意图,因为它能同时呈现物体的长、宽、高信息,且不受场景位置影响。相比直接生成3D,这种方法能利用更成熟的2D生成技术确保布局合理性和视觉美感。
图二:和其他任意的相机视角(左二、三)比,让文生图模型输出等轴测图(左一)更可靠,因为等轴测图默认相机参数是固定的,且没有透视形变。
2. 物体检测与修复
采用两阶段检测策略:先用GroundedDINO识别场景中的家具和装饰品,对遮挡部分用补全修复(RemoveAnything模型),再次检测确保完整性,最后得到每个物品的分割掩码。
3. 3D空间定位
通过Depth-Anything-2模型估计深度信息,配合自定义投影公式将2D坐标转换为3D位置。团队发现传统相机投影公式需要调整,于是采用去除深度缩放影响后的公式。
4. 模块化3D资产生成
传统方法通常从现有数据库检索3D模型,导致美观度受限。ArtiScene则对场景图中的每个物体分别生成定制化3D模型:在得到分割物体图像后,让ChatGPT描述其几何特征,再输入单视图3D生成模型,为每件家具、装饰品单独建模。
5. 场景组装
通过单目深度估计,系统将2D边界框转换为3D空间坐标。并使用\“渲染-比对\“的姿势估测机制,生成8个旋转角度的物体渲染图,用StableDiffusion+DINO-v2融合模型提取特征,选择与原始场景图最匹配的姿势。后处理阶段还会自动修正物体重叠,确保物理上足够合理,比如椅子不会嵌进餐桌里,花瓶能稳稳立在柜子上。
图三:系统流程图
这种设计带来三个显著优势:
✅零训练成本:完全利用现成模型,无需针对新场景类型微调
✅风格无限:每个物体都按需生成,不受预制模型库限制
✅可编辑性强:单独修改某个物体不会影响整体场景
实验结果:全面超越现有方案
团队在三个维度进行了系统评估:
1. 布局合理性测试
对比当时最强的LayoutGPT,在卧室和客厅场景中:
物体重叠率降低6-10倍(卧室6. 48%vs37. 26%)
用户调研显示,72. 58%的参与者更青睐ArtiScene的布局
生成家具数量更多(卧室平均6. 97件vs4.30件),且分布更自然
2. 风格一致性测试
相比当时效果最好的文生3D场景方法Holodeck,在包含29种场景种类和风格的测试集中:
CLIP分数提高10%(29. 45vs26.73)
GPT-4评估中,95. 46%案例认为ArtiScene更符合描述
用户调研显示,82. 96%认为风格还原更准确
图四:和之前的SOTAHolodeck的比较。
3. 应用灵活性展示
系统支持多种实用功能:
物体编辑:单独修改某个模型(如把普通汽车变成黄色保时捷)
多场景适配:通过调整参数支持户外场景生成
人工引导:允许直接输入手绘设计图替代AI生成场景图
图五:左:物体编辑;右:跳过最开始的文生图环节,直接用人工画的图生成场景。
展望
对于更复杂的多房间场景(如整个博物馆、医院),或者要求特定家具间的位置关系和个数等用户输入,由于文生图模型在训练时就缺乏相关数据,ArtiScene在最开始就会受限于不够优质的二维图像。然而,这一模块是可更换的,ArtiScene不依赖于某一特定模型,未来如果有性能更好的同功能模型,我们也可以很容易把它们替换进来。
本项目创新地采用二维图像来引导三维场景生成,并用LLM、VLM等大模型构成了一个鲁棒的系统,在生成结果的美观度、多样性和物理合理性上都远超之前的同类型方法。作者希望他们的工作可以启发未来更多关于具身智能、AR/VR、室内/室外设计的思考。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin. com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录