多模态干翻天了

发布日期: 2025-05-02

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

大家好，我是i学习的老章
DeepSeek-R2倒计时？或将由华为芯片驱动
阿里Qwen3全部情报汇总，本地部署指南，性能全面超越DeepSeekR1
最近Qwen3发布、DeepSeek-R2也传言即将发布，十分热闹。其实多模态方面，最近也非常热闹，只是热度很一般。
本文，老章会近期发布的几个多模态大模型做个梳理
感兴趣的部分，大家可以深入看看
Magi-1，首个实现顶级画质输出的自回归视频生成模型，模型权重、代码100%开源。此次开源了从24B到4.5B参数的一系列模型，最低配置一块4090就能跑。
在线试玩：https ://sand.ai/
项目地址：https ://github.com/SandAI-org/MAGI-1
论文地址：https ://static.magi.world/static/files/MAGI_1.pdf
模型文件：https ://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/magi/
详细介绍：清华特奖团队，100%开源，视频生成AI一夜刷屏！
基于Qwen2.5架构直出语音编码，零样本复刻任意人声，中英文混合生成丝滑无界。无需专业设备/海量数据，即刻生成媲美真人的多语言语音。
项目：https ://github.com/SparkAudio/Spark-TTS
论文：https ://www.arxiv.org/abs/2503.01710
Demo：https ://sparkaudio.github.io/spark-tts/
Wan-AI发布的140亿参数的大型模型，用于First-Last-Frame到视频生成。该模型能够生成5秒钟720p高清视频，并因其创新方法而备受关注。它于2025年4月发布，并附带推理代码和权重。
项目：https ://github.com/Wan-Video/Wan2.1
模型文件：https ://modelscope.cn/organization/Wan-AI
技术文件：https ://arxiv.org/abs/2503.20314
不算新模型了，看到一个最近的项目是基于腾讯混元，才发现腾讯在这方面也有干货
FramePack是一种渐进式生成视频的下一帧预测神经网络架构，通过将输入上下文压缩至恒定长度，使生成工作量与视频时长无关。该架构即便在笔记本电脑GPU上，也能用130亿参数模型处理超长帧序列。
🔗ProjectPage：https ://lllyasviel.github.io/frame_pack_gitpage/
🔗Paper：https ://lllyasviel.github.io/frame_pack_gitpage/pack.pdf
🔗Code：https ://github.com/lllyasviel/FramePack?tab=readme-ov-file
混元图像转视频模型（基于混元视频的可定制图像转视频模型）：https ://github.com/Tencent/HunyuanVideo-I2V
混元大型视频生成模型的系统框架：https ://github.com/Tencent/HunyuanVideo
模型文件：https ://huggingface.co/tencent/HunyuanVideo
官方介绍+Demo：https ://aivideo.hunyuan.tencent.com/
然后还发现腾讯还有3D视频大模型
官网：https ://3d.hunyuan.tencent.com/
3D模型文件：https ://huggingface.co/tencent/Hunyuan3D-2
在线试玩：https ://huggingface.co/spaces/tencent/Hunyuan3D-2
HiDream-I1是一款全新的开源图像生成基础模型，拥有170亿参数，能在数秒内实现顶尖的图像生成质量。HiDream-ai/HiDream-I1-Full:文本到图像模型，HiDream的新模型，生成质量非常好
试玩：https ://vivago.ai/home
GitHub：https ://github.com/HiDream-ai/HiDream-I1
模型文件：https ://huggingface.co/spaces/HiDream-ai/HiDream-E1-Full
也不算新，最近有模型更新
阿里开源的旗舰视觉语言模型，在视觉理解方面表现出色，能够识别常见物体，分析图像中的文本、图表等元素。在视频处理上，Qwen2.5-VL能够理解超过1小时的长视频，精准定位相关片段捕捉事件。模型还支持发票、表单等数据的结构化输出。
部署教程：1张4090，本地部署多模态大模型
模型文件：https ://modelscope.cn/models/Qwen/Qwen2.5-VL-7B-Instruct/files
技术文件：https ://qwenlm.github.io/blog/qwen2.5-vl/
项目地址：https ://github.com/QwenLM/Qwen2.5-VL
最后再推荐一个我正在学习的课程：