新突破,3 个火爆的 AI 项目,已开源!


新突破,3 个火爆的 AI 项目,已开源!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

Hello,大家好,我是Jack,新的一周,AI圈又是好消息连连。
就在昨天,两个重量级AI视频生成工具:Magi-1和SkyReels-V2相继发布。
不得不说,AI视频生成的赛道,真的卷到飞起。
与此同时,在音频领域,NariLabs今天刚推出了开源TTS(文本转语音)模型Dia-1.6B,能够生成带咳嗽声、笑声、嗅声和丰富情绪表达的高质量音频。
接下来,就让我们一起快速了解一下这三个最新的开源AI工具。
Magi-1是首个具备高质量输出的自回归扩散视频模型,在主要基准测试中表现出色,目前已正式上线
Sandai官网:
https ://sand.ai/
我们先一起来看看Magi-1生成的视频的效果。
AI视频生成平台层出不穷,Magi-1的特别之处在哪?
无限扩展能力:支持跨时间无缝讲故事。
提供精确的时间控制:时间精度达到1秒级,具备唯一的二级时间线控制功能,每一帧都可以被精准操控,有效解决了视频生成中的“慢动作”和“有限动态”问题。
物理定律理解透彻:在Physics-IQ基准测试中排名第一。
更令人惊喜的是,Magi-1模型100%开源,你可以在这里找到它的代码、预训练的权重和推理代码:
https ://github.com/SandAI-org/MAGI-1
之前的AI视频工具(如Runway)常将生成视频长度限制在10秒内,这对用户想要创作出完整的故事非常不方便。
而现在SkyReels-V2支持用户直接从浏览器可以通过单个提示创建无限长度的视频。
项目开源地址:
https ://github.com/SkyworkAI/SkyReels-V2
目前它也在VBench上拥有最高的开源分数(83.9%),优于Wan2.1、HunyuanVideo和OpenSora2.0。
它可以完成从脚本和故事板到语音、口型同步、音乐和完整电影视频的所有工作,强大得离谱。
例如,下面这个例子展示了使用SkyReels-V2将书面故事转换为电影故事板和场景,并且调整服装、声音和视觉效果以实现想要的效果。
如果prompt没有实现想要的视觉风格,你也可以通过上传具有一致外观、动作、灯光或动画的视觉对象来实现你个人定制的风格。
SkyReels-V2的核心优势来自其“强制扩散架构”,确保在延长视频长度时依然保持一致性和高质量。
看到Magi-1和SkyReels-V2的出现,电影导演梦真的越来越近了。网友评论:“期待5年内出现一部全AI制作的长片大片。”
NariLabs发布的TTS模型Dia-1.6B,虽然参数量不大,但功能却异常强大。
这个模型最厉害的地方是增加了一些自然人声的生成,比如笑声、咳嗽、清喉咙声音等,能够复制现有语音,表达人物的情感,还能在大规模GPU上实时运行。
该模型也将在本周登陆MLXAudio。
我们先一起来看看它的效果。
项目开源地址:
GitHub:
https ://github.com/nari-labs/dia
HuggingFace:
https ://huggingface.co/nari-labs/Dia-1.6B
更多的一些demo展示:
https ://yummy-fir-7a4.notion.site/dia
好了,本期文章的内容就这么多,我们下期再见~
推荐阅读
(点击标题可跳转阅读)
《机器学习100天》视频讲解
公众号历史文章精选
我的深度学习入门路线
重磅!
1700多页的《人工智能学习路线、干货分享全集》PDF文档
扫描下方二维码,添加我的微信,领取1700多页的《人工智能学习路线、干货分享全集》PDF文档(一定要备注:资料)。
长按扫码,申请入群
感谢你的分享,点赞,在看三连


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录