多模态干翻天了


多模态干翻天了

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大家好,我是i学习的老章
DeepSeek-R2倒计时?或将由华为芯片驱动
阿里Qwen3全部情报汇总,本地部署指南,性能全面超越DeepSeekR1
最近Qwen3发布、DeepSeek-R2也传言即将发布,十分热闹。其实多模态方面,最近也非常热闹,只是热度很一般。
本文,老章会近期发布的几个多模态大模型做个梳理
感兴趣的部分,大家可以深入看看
Magi-1,首个实现顶级画质输出的自回归视频生成模型,模型权重、代码100%开源。此次开源了从24B到4.5B参数的一系列模型,最低配置一块4090就能跑。
在线试玩:https ://sand.ai/
项目地址:https ://github.com/SandAI-org/MAGI-1
论文地址:https ://static.magi.world/static/files/MAGI_1.pdf
模型文件:https ://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/magi/
详细介绍:清华特奖团队,100%开源,视频生成AI一夜刷屏!
基于Qwen2.5架构直出语音编码,零样本复刻任意人声,中英文混合生成丝滑无界。无需专业设备/海量数据,即刻生成媲美真人的多语言语音。
项目:https ://github.com/SparkAudio/Spark-TTS
论文:https ://www.arxiv.org/abs/2503.01710
Demo:https ://sparkaudio.github.io/spark-tts/
Wan-AI发布的140亿参数的大型模型,用于First-Last-Frame到视频生成。该模型能够生成5秒钟720p高清视频,并因其创新方法而备受关注。它于2025年4月发布,并附带推理代码和权重。
项目:https ://github.com/Wan-Video/Wan2.1
模型文件:https ://modelscope.cn/organization/Wan-AI
技术文件:https ://arxiv.org/abs/2503.20314
不算新模型了,看到一个最近的项目是基于腾讯混元,才发现腾讯在这方面也有干货
FramePack是一种渐进式生成视频的下一帧预测神经网络架构,通过将输入上下文压缩至恒定长度,使生成工作量与视频时长无关。该架构即便在笔记本电脑GPU上,也能用130亿参数模型处理超长帧序列。
🔗ProjectPage:https ://lllyasviel.github.io/frame_pack_gitpage/
🔗Paper:https ://lllyasviel.github.io/frame_pack_gitpage/pack.pdf
🔗Code:https ://github.com/lllyasviel/FramePack?tab=readme-ov-file
混元图像转视频模型(基于混元视频的可定制图像转视频模型):https ://github.com/Tencent/HunyuanVideo-I2V
混元大型视频生成模型的系统框架:https ://github.com/Tencent/HunyuanVideo
模型文件:https ://huggingface.co/tencent/HunyuanVideo
官方介绍+Demo:https ://aivideo.hunyuan.tencent.com/
然后还发现腾讯还有3D视频大模型
官网:https ://3d.hunyuan.tencent.com/
3D模型文件:https ://huggingface.co/tencent/Hunyuan3D-2
在线试玩:https ://huggingface.co/spaces/tencent/Hunyuan3D-2
HiDream-I1是一款全新的开源图像生成基础模型,拥有170亿参数,能在数秒内实现顶尖的图像生成质量。HiDream-ai/HiDream-I1-Full:文本到图像模型,HiDream的新模型,生成质量非常好
试玩:https ://vivago.ai/home
GitHub:https ://github.com/HiDream-ai/HiDream-I1
模型文件:https ://huggingface.co/spaces/HiDream-ai/HiDream-E1-Full
也不算新,最近有模型更新
阿里开源的旗舰视觉语言模型,在视觉理解方面表现出色,能够识别常见物体,分析图像中的文本、图表等元素。在视频处理上,Qwen2.5-VL能够理解超过1小时的长视频,精准定位相关片段捕捉事件。模型还支持发票、表单等数据的结构化输出。
部署教程:1张4090,本地部署多模态大模型
模型文件:https ://modelscope.cn/models/Qwen/Qwen2.5-VL-7B-Instruct/files
技术文件:https ://qwenlm.github.io/blog/qwen2.5-vl/
项目地址:https ://github.com/QwenLM/Qwen2.5-VL
最后再推荐一个我正在学习的课程:


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录