刚刚,Qwen3 终于发布!混合推理模式、支持MCP,成本仅DeepSeek R1三分之一,网友喊话小扎:工程师要赶紧加班了


刚刚,Qwen3 终于发布!混合推理模式、支持MCP,成本仅DeepSeek R1三分之一,网友喊话小扎:工程师要赶紧加班了

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

整理|褚杏娟
4月29日凌晨,在一众预告和期待中,阿里巴巴终于发布并开源了新一代通义千问模型Qwen3。
Qwen3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。其中参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型。
Qwen3还是国内首个“混合推理模型”,“快思考”与“慢思考”集成进同一个模型,对简单需求可低算力“秒回”答案,对复杂问题可多步骤“深度思考”,大大节省算力消耗。
Qwen3在推理、指令遵循、工具调用、多语言能力等方面均大幅增强。在官方的测评中,Qwen3创下所有国产模型及全球开源模型的性能新高:在奥数水平的AIME25测评中,Qwen3斩获81.5分,刷新开源纪录;在考察代码能力的LiveCodeBench评测中,Qwen3突破70分大关,表现甚至超过Grok3;在评估模型人类偏好对齐的ArenaHard测评中,Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1。
Qwen3性能图
性能大幅提升的同时,Qwen3的部署成本还大幅下降,仅需4张H20即可部署Qwen3满血版,显存占用仅为性能相近模型的三分之一。对于部署,官方建议使用SGLang和vLLM等框架。对于本地使用,官方强烈推荐使用Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。
此外,Qwen3还提供和开源了丰富的模型版本,包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款稠密模型,每款模型均斩获同尺寸开源模型SOTA(最佳性能):Qwen3的30B参数MoE模型实现了10倍以上的模型性能杠杆提升,仅激活3B就能媲美上代Qwen2.5-32B模型性能;Qwen3的稠密模型性能继续突破,一半的参数量可实现同样的高性能,如32B版本的Qwen3模型可跨级超越Qwen2.5-72B性能。
据了解,Qwen3系列模型依旧采用宽松的Apache2.0协议开源,并首次支持119多种语言,全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace等平台下载模型并商用,也可以通过阿里云百炼调用Qwen3的API服务。个人用户可通过通义APP直接体验Qwen3,夸克也即将全线接入Qwen3。

Qwen3主要特点
混合思维模式
所有Qwen3模型都是混合推理模型,支持两种模式:
思考模式:在此模式下,模型会逐步推理,经过一系列思考后再给出最终答案。适用于需要深入思考的复杂问题。
非思考模式:在此模式下,模型快速响应,几乎即时给出答案,适合对速度要求高、但不需要深度推理的简单问题。
用户使用API可按需设置“思考预算”(即预期最大深度思考的tokens数量),进行不同程度的思考,灵活满足AI应用和不同场景对性能和成本的多样需求。比如,4B模型是手机端的绝佳尺寸;8B可在电脑和汽车端侧丝滑部署应用;32B最受企业大规模部署欢迎,有条件的开发者也可轻松上手。
该设计使Qwen3展现出与推理预算成正比的、可扩展且平滑的性能提升。用户能够更轻松地根据不同任务配置推理预算,在成本效率与推理质量之间实现更优的平衡。
增强对Agent支持
Qwen3为即将到来的智能体Agent和大模型应用爆发提供了更好的支持。团队优化了Qwen3模型的编码和Agent能力,并增强了对MCP的支持。以下视频展示Qwen3如何思考以及如何与环境交互。
在评估模型Agent能力的BFCL评测中,Qwen3创下70.8的新高,超越Gemini2.5-Pro、OpenAI-o1等顶尖模型,将大幅降低Agent调用工具的门槛。同时,Qwen3原生支持MCP协议,并具备强大的工具调用(functioncalling)能力,结合封装了工具调用模板和工具调用解析器的Qwen-Agent框架,将大大降低编码复杂性,实现高效的手机及电脑Agent操作等任务。
支持MCP的功能确实让社区开发者们感到兴奋。“Qwen2.5的工具调用行为在不同型号之间不一致,这让我抓狂。微调后的MCP真是太棒了。”有开发者说道。
此外,研究员ChujieZheng表示,Qwen3有一些非常有趣的功能没有在模型卡上写出来。
Qwen3训练过程
预训练
在预训练方面,Qwen3的数据集相比Qwen2.5有了显著扩展。Qwen2.5是在18万亿个token上进行预训练的,而Qwen3使用了几乎两倍的数据量,约36万亿个token,涵盖了119种语言和方言。
为了构建如此大规模的数据集,Qwen3不仅从网页收集数据,还从类似PDF的文档中提取内容。团队使用Qwen2.5-VL从这些文档中提取文本,并用Qwen2.5提升提取内容的质量。为了增加数学和代码数据的比例,团队还利用Qwen2.5-Math和Qwen2.5-Coder生成了合成数据,包括教科书、问答对以及代码片段等。
预训练过程分为三个阶段。在第一阶段(S1),模型在超过30万亿个token上进行预训练,使用的上下文长度为4Ktokens。这一阶段使模型掌握了基础语言能力和通用知识。在第二阶段(S2),团队提升了数据集的质量,增加了STEM、编程和推理等知识密集型数据的比例,并在额外的5万亿个token上进行了进一步预训练。在最后一个阶段,使用高质量的长上下文数据,将模型的上下文长度扩展到了32Ktokens,以确保模型能够有效处理更长的输入。
由于模型架构的进步、训练数据量的增加以及更高效的训练方法,Qwen3的稠密基础模型整体性能已经达到了参数量更大的Qwen2.5基础模型的水平。
例如,Qwen3-1.7B/4B/8B/14B/32B-Base的性能分别相当于Qwen2.5-3B/7B/14B/32B/72B-Base。值得注意的是,在STEM、编程和推理等领域,Qwen3的稠密基础模型甚至超越了更大规模的Qwen2.5模型。对于Qwen3-MoE基础模型,它们仅使用10%的激活参数,就能达到与Qwen2.5稠密基础模型相近的性能,从而在训练和推理成本上实现了显著节省。
后训练
为了开发能够兼顾逐步推理与快速响应的混合模型,团队设计并实现了一个四阶段的训练流程,该流程包括:(1)长链式思维(CoT)冷启动,(2)基于推理的强化学习(RL),(3)思维模式融合,以及(4)通用强化学习。
第一阶段,团队使用多样化的长链式思维数据对模型进行微调,涵盖数学、编程、逻辑推理、STEM问题等不同任务和领域。此过程旨在赋予模型基本的推理能力。第二阶段则专注于扩大强化学习的算力规模,利用基于规则的奖励机制,提升模型的探索与利用能力。第三阶段,通过在长链式思维数据与常规指令微调数据的组合上进行微调,将非思考型能力融入思考型模型。这些数据由第二阶段增强后的思考模型生成,从而实现推理与快速响应能力的自然融合。第四阶段,团队在20多个通用领域任务上应用强化学习,进一步增强模型的通用能力并纠正不良行为。这些任务包括指令跟随、格式遵循、Agent能力等。
对此,网友NathanLambert指出,Qwen3的后训练堆栈与deepseekR1极为相似,Qwen3提炼出了更小的模型。
网友反馈
Qwen3发布后,一些开发者已经迫不及待使用了。
苹果机器学习研究员AwniHannun使用后表示,Qwen3235BMoE(激活参数为22B)在搭载mlx-lm的M2Ultra上运行非常快:4比特量化模型占用约132GB内存;生成了580个token,速度约为28token/秒。
网友xjdr表示,Qwen3-235B-A22B是一个非常优秀的模型。“它的感觉很像是原始o1博客文章中的推理轨迹和R1zero的结合(这是件好事)。但模型出现了大量的“sinktokens”,比如so、then、wait、what等。”
编程方面,xjdr评价为:写JAX的即时编译(jitted)代码,就像在用Python玩《黑暗之魂》。
不过T3Chat的首席执行官Theo-t3.gg指出,Qwen3延续了Qwen系列在任务处理中严重过度思考的趋势,在回答问题之前会生成成千上万的思考标记(tokens),并因此耗尽上下文长度。
据悉,阿里通义已开源200余个模型,全球下载量超3亿次,Qwen衍生模型数超10万个,已超越美国Llama。
Qwen3发布后,有网友喊话,“扎克,你最好现在就释放巨兽。”还有人开玩笑道,“扎克伯格要让他的工程师赶紧加班了。”
活动推荐
AICon2025强势来袭,5月上海站、6月北京站,双城联动,全览AI技术前沿和行业落地。大会聚焦技术与应用深度融合,汇聚AIAgent、多模态、场景应用、大模型架构创新、智能数据基建、AI产品设计和出海策略等话题。即刻扫码购票,一同探索AI应用边界!
今日荐文
细扒字节Seed逆天招人要求!这5%本地顶级大脑做出了首个跨7大语言代码修复基准,让大模型成本狂降83%!
曝百川智能老班底所剩无几;小红书取消员工大小周、竞业;马拉松亚军“松延动力N2”以5.7万元拍卖价成交|AI周报
“DeepSeek不是万能的”,李彦宏今年押注AI应用:模型价再“打骨折”,重点布局多智能体、多模态
AI智能体老“崩”?DeepSeek前员工联手李飞飞等大佬开源新框架,教会模型真正推理
你也「在看」吗?👇


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录