显存暴降50%！阿里开源旗舰多模态模型，GPU救星来了

发布日期: 2025-05-01

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

国内开源大模型圈真的是太卷了，就在放五一长假的前一天，上午9点左右小米宣布入局并开源MiMo-7B；晚上6点，DeepSeek开源V2；晚上10点30，阿里又再次开源了小参数多模态模型Qwen2.5-Omni-3B。
与Qwen2.5-Omni-7B模型相比，3B版本在处理长上下文序列时，显存暴降50%以上。
并且能在24GB消费级GPU上支持长达30秒的音视频交互，整体保留了7B模型90%以上的多模态理解能力，自然语音输出的准确性、稳定性也与7B版本相当。
其实阿里刚在4月29日开源了Qwen-3，仅间隔一天又整了个量化多模态模型，这是开始要上强度了啊~
github地址：https ://github.com/QwenLM/Qwen2.5-Omni
笑脸：https ://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e
在线体验：https ://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo
网友对这款模型评价都不错，终于有了一个不会让其显卡崩溃的多模态模型了。
哇，这真的太酷了。让人们使用起来更便捷是向前迈出的一大步。祝贺！
通义千问将是GPT的终结者。
通义千问总是喜欢在不断取得成功的道路上不知疲倦。
游戏规则改变者。
Qwen2.5-Omni是一款端到端多模态模型，能够感知包括文本、图像、音频和视频在内的多种模态，并以流式方式同时生成文本和自然语音响应。采用了创新的“Thinker-Talker”架构，通过时间对齐多模态RoPE的新型位置嵌入，将视频输入的时间戳与音频同步，从而实现高效的多模态交互。
Qwen2.5-Omni的核心优势在于其支持完全实时的语音和视频聊天功能，能够处理分块输入并即时输出响应。
在语音生成方面，Qwen2.5-Omni的表现超越了许多现有的流式和非流式模型，展现出卓越的鲁棒性和自然度。
在多模态任务中的表现尤为出色，无论是在单一模态任务，例如，语音识别、翻译、音频理解、图像推理、视频理解和语音生成，还是在需要多模态融合的任务如OmniBench中，Qwen2.5-Omni都展现出了卓越的性能。
在性能评估方面，Qwen2.5-Omni在与同规模的单模态模型，如Qwen2.5-VL-7B和Qwen2-Audio以及闭源模型如Gemini-1.5-pro的对比中，表现极为出色。
不仅在音频能力上超越了Qwen2-Audio，还在图像和视频任务中达到了与Qwen2.5-VL-7B相当的水平。
本文素材来源阿里巴巴，如有侵权请联系删除
END