猛击OpenAI o1、DeepSeek-R1!刚刚,阿里Qwen3登顶全球开源模型王座,深夜爆火


猛击OpenAI o1、DeepSeek-R1!刚刚,阿里Qwen3登顶全球开源模型王座,深夜爆火

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

机器之心报道
编辑:Panda、杜伟
今天凌晨,从昨晚开始预热、备受全球AI圈关注的Qwen3系列模型终于正式亮相了!
Qwen3模型依旧采用宽松的Apache2.0协议开源,全球开发者、研究机构和企业均可免费在HuggingFace、魔搭社区等平台下载模型并商用,也可以通过阿里云百炼调用Qwen3的API服务。
HuggingFace地址:https ://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
Modelscope地址:https ://modelscope.cn/collections/Qwen3-9743180bdc6b48
GitHub地址:https ://github.com/QwenLM/Qwen3
博客地址:https ://qwenlm.github.io/blog/qwen3/
试用地址:https ://chat.qwen.ai/
具体来讲,Qwen3系列模型包含两款MoE模型以及六款密集模型,其中每一款又包含更多细分版本(比如基础版和量化版):
MoE模型:Qwen3-235B-A22B和Qwen3-30B-A3B;其中235B和30B分别是总参数量,22B和3B分别是激活参数量。
密集模型:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B。
下表展示了这些模型的详细参数:
HuggingFace已经上线了22个不同的Qwen3系列模型
目前,Qwen3系列中较大的三款模型也已经上线了QwenChat网页版和手机App。
性能方面,在代码、数学、通用能力等基准测试中,旗舰模型Qwen3-235B-A22B与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型表现相当。
此外,小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,表现却更胜一筹。甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。
性能大幅提升的同时,Qwen3的部署成本还大幅下降,仅需4张H20即可部署满血版,显存占用仅为性能相近模型的三分之一。
开发团队也在博客中给出了一些推荐设置:「对于部署,我们推荐使用SGLang和vLLM等框架;而对于本地使用,像Ollama、LMStudio、MLX、llama.cpp和KTransformers这样的工具也非常值得推荐。这些选项确保用户可以轻松将Qwen3集成到他们的工作流程中,无论是用于研究、开发还是生产环境。」
该团队表示:「Qwen3的发布和开源将极大地推动大型基础模型的研究与开发。我们的目标是为全球的研究人员、开发者和组织赋能,帮助他们利用这些前沿模型构建创新解决方案。」
Qwen团队技术负责人林俊旸(JunyangLin)进一步分享了Qwen3模型开发的细节,他称团队成员花了一些时间来找方法解决一些并不花哨的问题,比如如何通过稳定的训练来扩展强化学习、如何平衡来自不同领域的数据、如何增强对更多语言的支持等。他希望用户能够喜欢Qwen3模型并从中发现一些有趣的东西。他还表示,团队正迈向下一个阶段,即训练Agent来扩展长程推理,同时更多地关注现实世界的任务。
当然,未来开发团队也将放出Qwen3模型的技术报告或训练配方。
网友反馈与上手实测
和前一代Qwen系列模型一样,Qwen3的发布同样吸引了全球AI和开源社区的关注,我们看到的也是满屏的好评。
究竟表现如何?机器之心也做了点简单的尝试。
首先来个简单的推理测试题,Qwen3-235B-A22B不出意料地能轻松应对。
2倍速动图
接下来,我们尝试了一个更加复杂的编程任务:编写一个贪吃蛇游戏,采用像素风格。同时有另一个需求,游戏中有一个平头哥在追赶我们控制的蛇,一旦被咬中,蛇的长度就会丢失一半。当蛇撞墙或咬到自己或长度低于2时,游戏结束。
视频未加速
Qwen3-235B-A22B大概使用了3分钟解决这个任务。简单试玩一下,发现基本上可玩,但也有些bug,比如平头哥的速度过快了。但考虑到这是Qwen3-235B-A22B在简单提示词下给出的One-shot结果,也就完全可以接受了。相信更精细的提示工程和迭代优化可以得到更好的结果。
我们也通过Ollama简单尝试了Qwen3系列中最小的模型Qwen0.6B。
看起来,这个完全可以在一台普通手机上流畅运行的小模型不仅速度很快,也足以完成很多日常的推理任务。

三大核心亮点
此次,Qwen3模型在多个方面实现了增强。
一是,支持两种思考模式,分别如下:
思考模式,模型逐步推理,经过深思熟虑后给出最终答案,尤其适合需要深入思考的复杂问题。
非思考模式,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。
这种灵活性使用户能够根据具体任务控制模型进行「思考」的程度。例如,复杂的问题可以通过扩展推理步骤来解决,而简单的问题则可以直接快速作答,无需延迟。
至关重要的是,这两种模式的结合大大增强了模型实现稳定且高效的「思考预算」控制能力。Qwen3展现出的可扩展且平滑的性能提升,就与分配的计算推理预算直接相关。可以预见,这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。
下图为在AIME24、AIME25、LiveCodeBech(v5)和GPQADiamond等基准测试集中,非思考模式与思考模式的思考预算变化趋势。
二是,支持更多语言。
目前,Qwen3模型支持119种语言和方言。增强的多语言能力为国际应用开辟了新的可能性,可以让更广泛的全球用户体验到模型的强大能力。这些语言具体包括如下:
三是,Agent能力增强。
如今,Agent已经是大模型领域重点关注的能力之一,尤其是最近MCP模型上下文协议的引入更是大大增强了Agent的适用性和灵活性,大大拓宽了应用场景。
此次,Qwen3模型的Agent和代码能力得到增强,包括加强了对MCP的支持。我们可以看下面一个示例(提取QwenLM库的markdown内容,然后绘制显示项目stars数量的条形图),展示了Qwen3如何思考并与环境进行交互:
预训练数据量达36万亿token
后训练实现混合推理
在预训练方面,Qwen3的数据集相比Qwen2.5有了显著扩展。Qwen2.5是在18万亿个token上进行预训练的,而Qwen3使用的数据量几乎是其两倍,达到了约36万亿个token,涵盖了119种语言和方言。
为了构建庞大的数据集,开发团队不仅从网络上收集数据,还从PDF文档中提取信息。他们使用Qwen2.5-VL从这些文档中提取文本,并用Qwen2.5改进提取内容的质量。
另外,为了增加数学和代码数据的数量,开发团队利用Qwen2.5-Math和Qwen2.5-Coder这两个数学和代码领域的专家模型合成数据,合成了包括教科书、问答对以及代码片段等多种形式的数据。
具体而言,预训练过程分为了以下三个阶段:
在第一阶段(S1),模型在超过30万亿个token上进行了预训练,上下文长度为4Ktoken。这一阶段为模型提供了基本的语言技能和通用知识。
在第二阶段(S2),通过增加知识密集型数据(如STEM、编程和推理任务)的比例来改进数据集,随后模型又在额外的5万亿个token上进行了预训练。
在最后阶段,使用高质量的长上下文数据将上下文长度扩展到32Ktoken,确保模型能够有效地处理更长的输入。
得益于模型架构的改进、训练数据的增加以及更有效的训练方法,Qwen3Dense基础模型的整体性能与参数更多的Qwen2.5基础模型相当,例如Qwen3-1.7B/4B/8B/14B/32B-Base分别与Qwen2.5-3B/7B/14B/32B/72B-Base表现相当。
特别是在STEM、编码和推理等领域,Qwen3Dense基础模型的表现甚至超过了更大规模的Qwen2.5模型。可以看到,Qwen3MoE基础模型在仅使用10%激活参数的情况下达到了与Qwen2.5Dense基础模型相似的性能,由此带来了训练和推理成本的显著节省。
与此同时,Qwen3在后训练阶段同样进行了优化。
为了开发能够同时具备思考推理和快速响应能力的混合模型,开发团队实施了一个四阶段的训练流程,包括:(1)长思维链冷启动,(2)长思维链强化学习,(3)思维模式融合,以及(4)通用强化学习。
在第一阶段,使用多样的的长思维链数据对模型进行了微调,涵盖了数学、代码、逻辑推理和STEM问题等多种任务和领域。这一过程旨在为模型配备基本的推理能力。
第二阶段的重点是大规模强化学习,利用基于规则的奖励来增强模型的探索和钻研能力。
在第三阶段,在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调,将非思考模式整合到思考模型中,确保了推理和快速响应能力的无缝结合。
在第四阶段,在包括指令遵循、格式遵循和Agent能力等在内的20多个通用领域的任务上应用了强化学习,进一步增强模型的通用能力并纠正不良行为。
Qwen已成全球第一开源模型
Qwen3的发布是阿里通义千问的又一里程碑,再对比一下Llama4系列模型得到的社区反馈,Qwen系列无疑已经成为全球第一的开源模型——这一论断也有数据支持。据了解,阿里通义已开源了200余个模型,全球下载量超3亿次,Qwen衍生模型数超10万个,已超越Llama,成为全球最大的开源模型族群。
Qwen、Llama、Mistral系列开源模型的衍生模型数量随时间的增加情况
在全球AI技术竞争日益激烈的背景下,阿里通义千问通过持续的技术创新和开放合作,推动了AI技术的普及与发展,展现了中国科技企业在全球开源AI生态中的强大影响力。
参考链接:https ://x.com/Alibaba_Qwen/status/1916962087676612998
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录