手机上实时跑3D数字人?阿里开源MNN-TaoAvatar,打造本地离线智能数字人新标杆。
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
TaoAvatar是由阿里巴巴淘天Meta技术团队研发的3D真人数字人技术,这一技术能在手机或XR设备上实现3D数字人的实时渲染以及AI对话的强大功能,为用户带来逼真的虚拟交互体验。
MNN-TaoAvatar是一个本地运行、完全离线、支持多模态交互的智能数字人App!它是阿里最新研究成果的落地应用,将大语言模型(LLM)、语音识别(ASR)、语音合成(TTS)、声音到动作合成(A2BS)、神经渲染(NNR)统统搬到手机端,全本地运行,无需联网!
TaoAvatar能够从多视角序列生成逼真、拓扑一致的3D全身虚拟形象。它提供高质量、实时渲染,且存储需求低,并兼容各种移动设备和AR设备,例如AppleVisionPro。
本地聊天机器人:基于本地运行的LLM,实时与数字人畅聊
语音识别更智能:内置ASR模型,即说即转文字
随心所欲合成语音:TTS模型,让你的数字人发声自然真实
声音驱动表情动作:A2BS技术,通过声音自动生成数字人丰富的面部表情和动作
实时神经渲染:让数字人表情细腻逼真,互动感更强
100%离线运行:完全本地运行,守护隐私更放心
由于需要将多个模型同时运行在手机上,需要性能高的芯片和内存足够大:
旗舰芯片级性能:高通骁龙8Gen3或联发科天玑9200以上级别
内存至少8GB
手机存储需至少5GB空间用于存放模型文件
ARM64架构
论文:https ://arxiv. org/abs/2503. 17032v1
开源:https ://github. com/alibaba/MNN/blob/master/apps/Android/MnnTaoAvatar/README_CN. md
逼真的3D全身说话虚拟形象在增强现实(AR)领域拥有巨大潜力,应用范围涵盖电商直播、全息通信等。尽管3D高斯分布(3DGS)技术在创建逼真的虚拟形象方面取得了进展,但现有方法在全身说话任务中难以对面部表情和肢体动作进行精细控制。此外,它们通常缺乏足够的细节,并且无法在移动设备上实时运行。
论文提出了TaoAvatar,一个基于3DGS的高保真、轻量级、由各种信号驱动的全身说话虚拟形象。该方法首先创建一个个性化的着装人体参数模板,该模板绑定高斯分布来表示外观。然后,预训练一个基于StyleUnet的网络,用于处理复杂的姿态相关非刚性变形。该网络可以捕捉高频外观细节,但对于移动设备来说资源过于密集。为了解决这个问题,论文使用蒸馏技术将非刚性变形“烘焙”到一个基于多层感知器(MLP)的轻量级网络中,并开发混合形状来补偿细节。大量实验表明,TaoAvatar在各种设备上实时运行时实现了一流的渲染质量,在AppleVisionPro等高清立体设备上保持90FPS的帧率。
方法说明。该流程首先重建(a)一个带有对齐高斯纹理的布料扩展SMPLX网格。为了处理复杂的动态非刚性变形,(b)论文采用一个教师模型StyleUnet来学习与姿势相关的非刚性贴图,然后将其烘焙到一个轻量级学生模型MLP中,以推断模板网格的非刚性变形。为了实现高保真渲染,(c)论文引入了可学习的高斯混合形状来增强外观细节。
TaoAvatar是一个轻量级、逼真的全身语音虚拟形象解决方案。展示了该师生框架如何捕捉高清面部和身体细节,同时确保在AR设备上的实时性能。TaoAvatar可以由多种信号驱动,包括面部表情、手势和身体姿势。通过定量和定性评估,我们展示了该方法的优势。此外还通过在AppleVisionPro上的实际应用验证了其实际潜力。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~