仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
国内开源大模型圈真的是太卷了,就在放五一长假的前一天,上午9点左右小米宣布入局并开源MiMo-7B;晚上6点,DeepSeek开源V2;晚上10点30,阿里又再次开源了小参数多模态模型Qwen2.5-Omni-3B。
与Qwen2.5-Omni-7B模型相比,3B版本在处理长上下文序列时,显存暴降50%以上。
并且能在24GB消费级GPU上支持长达30秒的音视频交互,整体保留了7B模型90%以上的多模态理解能力,自然语音输出的准确性、稳定性也与7B版本相当。
其实阿里刚在4月29日开源了Qwen-3,仅间隔一天又整了个量化多模态模型,这是开始要上强度了啊~
github地址:https ://github.com/QwenLM/Qwen2.5-Omni
笑脸:https ://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e
在线体验:https ://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo
网友对这款模型评价都不错,终于有了一个不会让其显卡崩溃的多模态模型了。
哇,这真的太酷了。让人们使用起来更便捷是向前迈出的一大步。祝贺!
通义千问将是GPT的终结者。
通义千问总是喜欢在不断取得成功的道路上不知疲倦。
游戏规则改变者。
Qwen2.5-Omni是一款端到端多模态模型,能够感知包括文本、图像、音频和视频在内的多种模态,并以流式方式同时生成文本和自然语音响应。采用了创新的“Thinker-Talker”架构,通过时间对齐多模态RoPE的新型位置嵌入,将视频输入的时间戳与音频同步,从而实现高效的多模态交互。
Qwen2.5-Omni的核心优势在于其支持完全实时的语音和视频聊天功能,能够处理分块输入并即时输出响应。
在语音生成方面,Qwen2.5-Omni的表现超越了许多现有的流式和非流式模型,展现出卓越的鲁棒性和自然度。
在多模态任务中的表现尤为出色,无论是在单一模态任务,例如,语音识别、翻译、音频理解、图像推理、视频理解和语音生成,还是在需要多模态融合的任务如OmniBench中,Qwen2.5-Omni都展现出了卓越的性能。
在性能评估方面,Qwen2.5-Omni在与同规模的单模态模型,如Qwen2.5-VL-7B和Qwen2-Audio以及闭源模型如Gemini-1.5-pro的对比中,表现极为出色。
不仅在音频能力上超越了Qwen2-Audio,还在图像和视频任务中达到了与Qwen2.5-VL-7B相当的水平。
本文素材来源阿里巴巴,如有侵权请联系删除
END