南洋理工 & 牛津 & 新加坡理工提出Amodal3R,可从遮挡 2D 图像重建完整 3D 资产,3D生成也卷起来了!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
Amodal3R是一种条件式3D生成模型,能够从部分可见的2D物体图像中推测并重建完整的3D形态和外观,显著提升遮挡场景下的3D重建质量。
给定图像中部分可见的物体,Amodal3R重建具有合理几何形状和合理外观的语义上有意义的3D资产。
论文:https ://arxiv.org/pdf/2503.13439
主页:https ://sm0kywu.github.io/Amodal3R
代码:即将开放…
模型:https ://huggingface.co/Sm0kyWu/Amodal3R
试用:https ://huggingface.co/spaces/Sm0kyWu/Amodal3R
Amodal3R的示例结果。给定图像中部分可见的物体(遮挡区域显示为黑色,可见区域显示为红色轮廓),Amodal3R会生成具有合理几何形状和合理外观的多种语义上有意义的3D资产。
大多数基于图像的3D对象重建器都假设对象是完全可见的,而忽略了现实场景中常见的遮挡。论文介绍的Amodal3R是一种条件3D生成模型,旨在从部分观察中重建3D对象。从“基础”3D生成模型开始,并将其扩展为从遮挡对象中恢复合理的3D几何形状和外观。作者引入了一种掩模加权多头交叉注意机制,随后是一个遮挡感知注意层,该层明确利用遮挡先验来指导重建过程。论文证明通过仅对合成数据进行训练,Amodal3R即使在现实场景中存在遮挡的情况下也能学会恢复完整的3D对象。它大大优于现有的独立执行2D非模态完成然后进行3D重建的方法,从而为遮挡感知3D重建建立了新的基准。
与2D非模态补全+3D重建相比,Amodal3R在遮挡物体的3D重建质量方面取得了更好的效果。目标物体和遮挡物以红色和绿色轮廓标记。
方法概述:给定一张图像作为输入,并在感兴趣的区域中给出提示,Amodal3R首先使用现成的2D分割器提取部分可见的目标对象以及可见性和遮挡蒙版。然后,它应用DINOv2提取特征cdino作为3D重建器的额外条件。为了增强遮挡推理,每个转换器块都包含一个蒙版加权交叉注意力和遮挡感知注意层,确保3D重建器准确感知可见信息,同时有效推断被遮挡部分。
Amodal3R的Transformer结构。与原始TRELLIS设计相比,我们进一步引入了mask加权交叉注意和遮挡感知层。它适用于稀疏结构和SLAT扩散模型。
3D一致性蒙版示例。给定一个3D网格,我们以与其他三角形不同的颜色渲染选定的三角形,以生成多视图一致性蒙版。它允许评估处理接触遮挡的多视图方法。(遮挡区域显示为红色。)
Amodal3R是一种从部分可见的2D图像重建完整3D形状和外观的新方法。通过构建mask加权交叉注意机制和遮挡感知层,以有效利用可见和遮挡信息。与依赖于顺序2D完成然后3D生成的最先进方法相比,Amodal3R通过直接在3D空间中操作实现了显着更好的性能。此外,在野外图像上的结果表明它在3D分解和场景理解中的后续应用潜力,标志着朝着在具有复杂遮挡的现实环境中进行稳健的3D资产重建迈出了一步。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~