单图生成3D头像+AI编辑+多模态驱动?阿里LAM让虚拟人“活”了!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
LAM是一个能从一张图片中一次前向推理重建可动画3D高斯人头的模型,不依赖多视角训练或额外渲染网络,支持跨平台、低延迟、实时渲染,是虚拟人、AI聊天头像与AIGC人物生成的重大突破。特点总结如下:
从一张图片创建超逼真的3D头像
在任何设备上进行超快速跨平台动画和渲染
用于实时交互式聊天头像的低延迟SDK
使用LAM可以通过现有的文本到图像生成流程从生成的图像中重建3D高斯头像,并使用不同的驱动表达式为其添加动画。
与以前的3D编辑框架需要对多视图图像进行迭代训练以进行风格化不同,LAM可以利用2D编辑先验模型在2D图像中编辑头像,然后将其提升到3D高斯空间,从而有效地编辑3D高斯头像的不同风格。
LAM只需在一秒钟内通过单次前向传播,即可创建可动画化的高斯头部,并生成一次性拍摄的图像。重建的3D高斯头像可在包括手机在内的各种平台上实时重现和渲染。
论文:https ://arxiv.org/abs/2502.17796
主页:https ://github.com/aigc3d/LAM
试用:https ://huggingface.co/spaces/3DAIGC/LAM
LAM是一种创新的大型头像模型,用于从单幅图像重建可动画的高斯头部。与以往需要在捕获的视频序列上进行大量训练或在推理过程中依赖辅助神经网络进行动画和渲染的方法不同,该方法可以生成可立即动画化和渲染的高斯头部。
具体来说,LAM只需一次前向传播即可创建可动画化的高斯头部,无需额外的网络或后处理步骤即可进行重现和渲染。此功能可无缝集成到现有的渲染管线中,确保在包括手机在内的各种平台上实现实时动画和渲染。
框架的核心是典型高斯属性生成器,它利用FLAME的典型点作为查询。这些点通过Transformer与多尺度图像特征交互,从而准确预测典型空间中的高斯属性。重建的典型高斯头像可以像FLAME模型一样,利用标准线性混合蒙皮(LBS)和校正混合形状进行动画制作,并在各种平台上实时渲染。实验结果表明,LAM在现有基准上的表现优于最先进的方法。
论文提出了一种新颖的大型头像模型LAM,用于一次性生成可动画的高斯头部。该框架的核心是经典的高斯头像生成Transformer。利用点云表示来充分利用FLAME中预先存储的形状信息;在多尺度图像特征上构建堆叠的交叉注意力模块,以实现更好的纹理和形状重建;并在统一的经典空间中生成具有相同表情和姿势的高斯头像,以降低重建复杂性。LAM可以生成可无缝集成到现有渲染管线中的高斯头像,以便在包括手机在内的各种平台上进行实时动画和渲染。此外还引入了一个高效的流程,用于从文本到可动画的高斯头像生成,以及一个用户友好的流程,用于在给定单个图像的情况下编辑高斯头像风格。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~