一天拿下3.4k star，这个1.6B开源模型火了，合成对话超逼真

发布日期: 2025-04-23

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

机器之心报道
编辑：Panda、张倩
如果不提前告诉你，你可能很难相信这段视频里的语音全部是AI生成的：
这些声音来自Dia-1.6B——一个刚刚在𝕏、GitHub等平台上走红的开源语音模型。它不仅能生成说话的声音、对话，同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。
由于效果过于逼真，它在GitHub上线后不到24小时就收获了超过3.4kstar，现在的star数更是已经达到了5.4k。同时，Dia-1.6B也是目前HuggingFace上热度第二的模型，目前已经被下载了超过5600次。
GitHub：https ://github.com/nari-labs/dia/
HuggingFace:https ://huggingface.co/nari-labs/Dia-1.6B
试用地址：https ://huggingface.co/spaces/nari-labs/Dia-1.6B
在和ElevenLabsStudio、SesameCSM-1B等之前以逼真著称的模型对比之后，Dia-1.6B依然有着明显的优势，尤其是在情绪表达方面。
Dia-1.6B生成结果：
ElevenLabsStudio生成结果：
SesameCSM-1B生成结果：
表现如此之好，自然也是收获好评无数：
机器之心也做了一些简单的尝试，下面是一个示例
整体来说，Dia-1.6B在合成简单英语对话方面确实表现卓越，但却并不能很好地理解用户通过括号标注的指令，偶尔会出现类似电流的杂音。
Dia模型细节
Dia来自NariLabs，是一个1.6B参数量的文本转语音模型。
Dia可以直接基于文字生成高真实感的对话。用户可以对输出的音频进行调整，从而控制其情绪和语调。同时，模型还可以生成非语言的交流声音，例如笑声、咳嗽声、吸鼻子声等。
并且NariLabs开源发布了Dia，使用了ApacheLicense2.0证书。该团队表示：「为了加速研究，我们提供了预训练模型检查点和推理代码的访问权限。模型权重托管在HuggingFace上。」
不过遗憾的是，目前该模型仅支持英语生成。
硬件和推理加速
目前NariLabs并未发布Dia模型的详细技术报告，但我们可以在其HuggingFace页面看到些许有关硬件和推理加速的技术细节。
该团队表示，Dia目前仅在GPU上进行过测试（Pytorch2.0+，CUDA12.6）。CPU支持也即将添加。并且由于需要下载DescriptAudioCodec，初始运行会需要更长时间。
在企业级GPU上，Dia可以实时生成音频。在较旧的GPU上，推理会更慢。作为参考，在A4000GPU上，Dia大约每秒生成40个token（86个token相当于1秒的音频）。torch.compile将提高受支持GPU的速度。
Dia的完整版本需要大约10GB的显存才能运行。不过该团队承诺未来会放出一些量化版本。

另外，TobyKim还指出目前最长能稳定生成大约25秒的音频，但用户也可以基于之前的生成结果来生成更长的音频。
NariLabs简介
NariLabs的HuggingFace页面透露，Nari是一个源自韩语的词（나리），意为百合。
据介绍，NariLabs是一个非常小的团队，目前仅有一位全职研究工程师和一位兼职研究工程师。他们的GitHub账户也是四天前才刚注册的。

目前看来，他们已经取得了初步的成功。TobyKim表示这项成功耗时三个月时间，而这个过程中他们遇到的最大阻碍是计算不足。
接下来，他们计划将Dia做成一个B2C应用，可以生成有趣的对话和混音内容。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin.com

ZejunCao

https://zejuncao.github.io/2025/04/23/2650966461-2650966461-1/