3D人脸黑科技!Pixel3DMM:单张RGB图像秒变3D人脸,姿势表情精准还原,几何精度碾压竞品15%!


3D人脸黑科技!Pixel3DMM:单张RGB图像秒变3D人脸,姿势表情精准还原,几何精度碾压竞品15%!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

慕尼黑工业大学和伦敦大学学院提出了一款经过微调的DINOViT模型Pixel3DMM,用于逐像素表面法线和UV坐标预测。从上到下,下图展示了FFHQ输入图像、估计的表面法线、根据预测的UV坐标估计的二维顶点,以及针对上述两个线索的FLAME拟合结果。
从左到右:输入、预测法线、预测二维顶点、跟踪覆盖、FLAME跟踪。
给定一个输入图像(右上),下图展示了DECA、FlowFace和Ours相对于地面真实COLMAP点云的几何重建。
给定一个输入图像(右上),我们展示了DECA、FlowFace和Ours相对于地面真实COLMAP点云的中性几何重建。
项目:https ://simongiebenhain. github.io/pixel3dmm
论文:https ://simongiebenhain. github.io/pixel3dmm/static/Pixel3DMM. pdf
我们致力于从单张RGB图像进行人脸的3D重建。为此,我们提出了Pixel3DMM,这是一组高度泛化的视觉变换器,能够预测每个像素的几何线索,从而限制3D可变形人脸模型(3DMM)的优化。我们利用DINO基础模型的潜在特征,并引入了定制的表面法线和uv坐标预测头。我们通过将三个高质量的3D人脸数据集与FLAME网格拓扑进行配准来训练我们的模型,最终共计生成超过1,000个身份和976,000张图像。对于3D人脸重建,我们提出了一种FLAME拟合优化方法,该方法可以根据uv坐标和法线估计值求解3DMM参数。为了评估我们的方法,我们引入了一个用于单图像人脸重建的新基准,该基准具有高度多样化的面部表情、视角和种族特征。至关重要的是,我们的基准是第一个同时评估姿势面部和中性面部几何形状的基准。最终,我们的方法在姿势面部表情的几何精度方面比最具竞争力的基线高出15%以上。
左图:我们的网络由DINO主干网络和轻量级预测头组成。我们在NPHM、FaceScape和Ava256数据集上训练模型,并使用FLAME和非刚性配准将这些数据集转换为统一的格式。
右图:在推理阶段,我们使用法线和UV坐标预测作为FLAME拟合过程中的优化目标。虽然法线约束很简单,但我们首先使用最近邻查找法预测二维顶点位置,从而将UV坐标预测纳入其中。
给定一个输入图像(左),下图展示了几个表面法线估计器(右上)和误差图(右下)的预测
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录