两本科生自学3个月复刻谷歌爆款产品，开源AI语音新标杆一天揽获5000星标

发布日期: 2025-04-23

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

谷歌现象级产品NotebookLM，两个本科生自学3个月就复刻了？
NariLabs刚刚开源的Dia-1.6B，能够生成关于任何主题的对话，语音音色自然，还会添加语气、咳嗽声、笑声等。
官方演示提供了与热门语音模型ElevenLabs和SeaSame的对比，先来感受一下：
Dia-1.6B模型权重与推理代码全开源，在GitHub上不到一天就获得近5000标星。
目前Dia1.6B在单张英伟达RTXA4000上每秒约可生成40个token，而86个token大约是1秒的音频内容。
也就是说，在更强的GPU或者多卡配置下可以做到实时生成音频。
官方表示完整版模型需要10GB显存运行，未来会添加量化版本，以及CPU支持。
不过开源社区已经通过优化torch编译进一步提高推理速度和节省显存。
如果没有算力资源，也可以到HuggingFace试玩Demo，不过很可惜，目前版本不支持中文。
使用Dia-1.6B非常简单，用[s1][s2]标签带标两个不同的音色，目前模型为针对任何音色微调，每次都会随机得到不同的音色。
如果想保持特定音色，可以添加音色提示词（教程稍后发布）或固定随机种子。
语气会自动适应文字内容，如官方演示中一段与着火了有关的对话，AI语气就明显紧张起来。
相比之下，ElevenLabs和Seasame模型生成的语气还是不紧不慢的。
只需使用括号可添加咳嗽、吸鼻子、清嗓子、笑声等要素，特别是笑声会与。其他模型暂不支持这个功能。
不过目前版本的在线Demo也有一些问题，由于最大生成时长相对固定，输入的文字越多语速就会越快。
如果在参数中调整速度因子，会像调整音频播放速度一样让声音更低沉，没那么自然了。
NariLab创始成员TobyKim与JaeyongSung，来自韩国首尔大学和韩国科学技术院（KAIST），其中还有一人在服兵役兼职工作，整个项目0融资启动，自学3个月完成。
TobyKim透露项目灵感正是来自谷歌去年爆火的NoteBookLM自动生成播客对话功能，但他们想要对声音的控制力更强，脚本的自由度更高。
他们尝试了当时市面上所有的文本转语音API后，认为没有一个听起来像真实的人类对话。