1秒转录1小时音频,英伟达重磅开源语音识别最强模型Parakeet!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
Nvidia又一次刷新了开源AI模型的天花板!
刚刚,Nvidia高调宣布开源其最新语音识别模型:ParakeetTDT0.6B,一上线就霸占了OpenASRLeaderboard榜单第一名的位置!
这款模型到底强在哪里?
居然能在1秒内完成60分钟音频的转录!
600M参数,不仅超高效,Nvidia还以CC-BY-4.0许可协议开源,意味着开发者可以完全免费将其用于商业用途。
Vaibhav(VB)Srivastav(@reach_vb)对模型发布做出评价:
Nvidia刚刚开源了ParakeetTDT0.6B,这是目前OpenASR榜单上表现最好的语音识别模型。它能在1秒钟内转录60分钟的音频,速度令人难以置信。模型拥有6亿参数,以商业许可(CC-BY-4.0)开放。祝贺Nvidia的杰出发布,直接击败了市面上主流的闭源巨头们!
Parakeet采用的是最新的FastConformer-TDT架构。
这种架构最显著的特征就是能对长达24分钟的音频片段进行高效处理,无需分割,直接单次处理完成。
此外,它集成了强大的TDT解码器,保证了高质量的标点符号预测、大小写精准以及准确的时间戳预测。
看看HuggingFace上的OpenASR排行榜表现:
平均词错误率(WER)仅为6.05%,在LibriSpeechclean测试集上甚至低至1.69%。
各大常用基准(AMI、GigaSpeech、TEDLIUM等)均表现优异。
而最关键的性能参数RTFx(实时性能倍数)更是惊人地达到3380(批处理大小128),说明其转录效率已经远远超越了现有的主流方案。
这次Nvidia开源Parakeet,引发了广泛关注,不少AI圈的网友纷纷发推询问、点评:
tj(@new_discord_tea)直接惊呆了:
一秒转录60分钟音频,你确定?我的RTX3090能跑吗?
而AIWave(@aiwaveco)则毫不掩饰自己的兴奋:
Nvidia这次玩得太大了,开放许可、性能屠榜,这种速度和易用性会改变整个行业。
甚至有人开始积极探索Parakeet在各平台的兼容性,MonoSilabo(@monosilabo)关注Mac平台:
我能在我的MacBookProM3上运行它吗?
很快,就有用户提供了方案。silv.eth(@mattsilv)表示一开始对MacOS不抱希望,但后续有用户发布了针对AppleSilicon芯片优化的移植版本:
而NithinRao(@nithinraok_)则提供了具体移植版本的信息:
有人已经把Parakeet移植到了mlx上,支持苹果芯片的Mac用户直接用pip安装就能用了。
传送门:huggingface.co/senstella/parakeet-tdt-0.6b-v2-mlx
HighJack(@jackadoresai)也推荐Mac用户尝试一下移植版:
Parakeet-mlx听说非常好用,苹果芯片用户可以试试,ASR也能变简单。
不过,有一点用户要注意,ParakeetTDT0.6B目前仅支持英文语音识别。
Leo(@LeoVasanko)指出了语言支持的局限:
Nvidia的模型非常快,但语言支持目前仍有限。Parakeet只支持英语,之前的Canary虽然号称支持四种语言,但在实际使用中对部分拉美口音的西班牙语表现并不好。
MikolajPiech(@mikolajpiech)也询问大家是否知道更小巧的多语言模型:
Parakeet虽然出色,但仅限英语,谁知道小巧好用的多语言ASR模型吗?
而针对一些专业用户关心的SRT字幕和多人对话分离转录的功能,AntA(@AntDX316)提出了疑问,目前官方还没有给出明确回复,看来还需要用户自行测试探索。
最后,Parakeet的具体安装和调用也相当简单:
Nvidia此次开源Parakeet,最大的意义在于推动整个语音识别领域的技术民主化。
DataInsta(@DataInsta_com)指出:
开源能极大地加速创新,就像transformer开源后彻底改变了NLP领域一样。
Oboe(@oboelabs)也对此表示赞同:
Parakeet是开源力量推动创新的绝佳例子,transformer开源后的繁荣就是最好的佐证。
随着更多高性能模型的开源,技术进步的门槛正在降低,未来的AI生态必然更加开放、丰富。
现在,所有人都可以免费、自由地使用最前沿的AI语音识别技术了——
Parakeet来了,你准备好了吗?
相关阅读
模型主页:huggingface.co/nvidia/parakeet-tdt-0.6b-v2
OpenASRLeaderboard:huggingface.co/spaces/hf-audio/open_asr_leaderboard
👇
👇
👇
另外,我还用AI进行了全网的AI资讯采集,并用AI进行挑选、审核、翻译、总结后发布到《AGIHunt》的知识星球中。
这是个只有信息、没有感情的AI资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息)