一天拿下3.4k star,这个1.6B开源模型火了,合成对话超逼真


一天拿下3.4k star,这个1.6B开源模型火了,合成对话超逼真

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

机器之心报道
编辑:Panda、张倩
如果不提前告诉你,你可能很难相信这段视频里的语音全部是AI生成的:
这些声音来自Dia-1.6B——一个刚刚在𝕏、GitHub等平台上走红的开源语音模型。它不仅能生成说话的声音、对话,同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。
由于效果过于逼真,它在GitHub上线后不到24小时就收获了超过3.4kstar,现在的star数更是已经达到了5.4k。同时,Dia-1.6B也是目前HuggingFace上热度第二的模型,目前已经被下载了超过5600次。
GitHub:https ://github.com/nari-labs/dia/
HuggingFace:https ://huggingface.co/nari-labs/Dia-1.6B
试用地址:https ://huggingface.co/spaces/nari-labs/Dia-1.6B
在和ElevenLabsStudio、SesameCSM-1B等之前以逼真著称的模型对比之后,Dia-1.6B依然有着明显的优势,尤其是在情绪表达方面。
Dia-1.6B生成结果:
ElevenLabsStudio生成结果:
SesameCSM-1B生成结果:
表现如此之好,自然也是收获好评无数:
机器之心也做了一些简单的尝试,下面是一个示例
整体来说,Dia-1.6B在合成简单英语对话方面确实表现卓越,但却并不能很好地理解用户通过括号标注的指令,偶尔会出现类似电流的杂音。
Dia模型细节
Dia来自NariLabs,是一个1.6B参数量的文本转语音模型。
Dia可以直接基于文字生成高真实感的对话。用户可以对输出的音频进行调整,从而控制其情绪和语调。同时,模型还可以生成非语言的交流声音,例如笑声、咳嗽声、吸鼻子声等。
并且NariLabs开源发布了Dia,使用了ApacheLicense2.0证书。该团队表示:「为了加速研究,我们提供了预训练模型检查点和推理代码的访问权限。模型权重托管在HuggingFace上。」
不过遗憾的是,目前该模型仅支持英语生成。
硬件和推理加速
目前NariLabs并未发布Dia模型的详细技术报告,但我们可以在其HuggingFace页面看到些许有关硬件和推理加速的技术细节。
该团队表示,Dia目前仅在GPU上进行过测试(Pytorch2.0+,CUDA12.6)。CPU支持也即将添加。并且由于需要下载DescriptAudioCodec,初始运行会需要更长时间。
在企业级GPU上,Dia可以实时生成音频。在较旧的GPU上,推理会更慢。作为参考,在A4000GPU上,Dia大约每秒生成40个token(86个token相当于1秒的音频)。torch.compile将提高受支持GPU的速度。
Dia的完整版本需要大约10GB的显存才能运行。不过该团队承诺未来会放出一些量化版本。

另外,TobyKim还指出目前最长能稳定生成大约25秒的音频,但用户也可以基于之前的生成结果来生成更长的音频。
NariLabs简介
NariLabs的HuggingFace页面透露,Nari是一个源自韩语的词(나리),意为百合。
据介绍,NariLabs是一个非常小的团队,目前仅有一位全职研究工程师和一位兼职研究工程师。他们的GitHub账户也是四天前才刚注册的。

目前看来,他们已经取得了初步的成功。TobyKim表示这项成功耗时三个月时间,而这个过程中他们遇到的最大阻碍是计算不足。
接下来,他们计划将Dia做成一个B2C应用,可以生成有趣的对话和混音内容。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录