新突破，3 个火爆的 AI 项目，已开源！

发布日期: 2025-04-23

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

Hello，大家好，我是Jack，新的一周，AI圈又是好消息连连。
就在昨天，两个重量级AI视频生成工具：Magi-1和SkyReels-V2相继发布。
不得不说，AI视频生成的赛道，真的卷到飞起。
与此同时，在音频领域，NariLabs今天刚推出了开源TTS（文本转语音）模型Dia-1.6B，能够生成带咳嗽声、笑声、嗅声和丰富情绪表达的高质量音频。
接下来，就让我们一起快速了解一下这三个最新的开源AI工具。
Magi-1是首个具备高质量输出的自回归扩散视频模型，在主要基准测试中表现出色，目前已正式上线
Sandai官网：
https ://sand.ai/
我们先一起来看看Magi-1生成的视频的效果。
AI视频生成平台层出不穷，Magi-1的特别之处在哪？
无限扩展能力：支持跨时间无缝讲故事。
提供精确的时间控制：时间精度达到1秒级，具备唯一的二级时间线控制功能，每一帧都可以被精准操控，有效解决了视频生成中的“慢动作”和“有限动态”问题。
物理定律理解透彻：在Physics-IQ基准测试中排名第一。
更令人惊喜的是，Magi-1模型100%开源，你可以在这里找到它的代码、预训练的权重和推理代码：
https ://github.com/SandAI-org/MAGI-1
之前的AI视频工具（如Runway）常将生成视频长度限制在10秒内，这对用户想要创作出完整的故事非常不方便。
而现在SkyReels-V2支持用户直接从浏览器可以通过单个提示创建无限长度的视频。
项目开源地址：
https ://github.com/SkyworkAI/SkyReels-V2
目前它也在VBench上拥有最高的开源分数（83.9%），优于Wan2.1、HunyuanVideo和OpenSora2.0。
它可以完成从脚本和故事板到语音、口型同步、音乐和完整电影视频的所有工作，强大得离谱。
例如，下面这个例子展示了使用SkyReels-V2将书面故事转换为电影故事板和场景，并且调整服装、声音和视觉效果以实现想要的效果。
如果prompt没有实现想要的视觉风格，你也可以通过上传具有一致外观、动作、灯光或动画的视觉对象来实现你个人定制的风格。
SkyReels-V2的核心优势来自其“强制扩散架构”，确保在延长视频长度时依然保持一致性和高质量。
看到Magi-1和SkyReels-V2的出现，电影导演梦真的越来越近了。网友评论：“期待5年内出现一部全AI制作的长片大片。”
NariLabs发布的TTS模型Dia-1.6B，虽然参数量不大，但功能却异常强大。
这个模型最厉害的地方是增加了一些自然人声的生成，比如笑声、咳嗽、清喉咙声音等，能够复制现有语音，表达人物的情感，还能在大规模GPU上实时运行。
该模型也将在本周登陆MLXAudio。
我们先一起来看看它的效果。
项目开源地址：
GitHub：
https ://github.com/nari-labs/dia
HuggingFace：
https ://huggingface.co/nari-labs/Dia-1.6B
更多的一些demo展示：
https ://yummy-fir-7a4.notion.site/dia
好了，本期文章的内容就这么多，我们下期再见~
推荐阅读
（点击标题可跳转阅读）
《机器学习100天》视频讲解
公众号历史文章精选
我的深度学习入门路线
重磅！
1700多页的《人工智能学习路线、干货分享全集》PDF文档
扫描下方二维码，添加我的微信，领取1700多页的《人工智能学习路线、干货分享全集》PDF文档（一定要备注：资料）。
长按扫码，申请入群
感谢你的分享，点赞，在看三连