性能超越DeepSeek R1,Qwen3正式登场!阿里一口气放出8款大模型,登顶开源王座!


性能超越DeepSeek R1,Qwen3正式登场!阿里一口气放出8款大模型,登顶开源王座!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

整理|屠敏
出品|CSDN(ID:CSDNnews)
今天凌晨,大模型领域最受关注的重磅消息来自阿里Qwen团队——他们正式发布了备受期待的全新Qwen3系列大模型。
不同于以往,这次其一次性开源了多达8款混合推理模型,在性能上全面逼近OpenAI、Google等闭源大模型,以及超越了开源大模型DeepSeekR1,堪称当前最强的开源模型之一,也难怪昨晚Qwen团队一直在加班。
8大模型齐发!
这8款混合推理模型中,包括了2个MOE模型:Qwen3-235B-A22B和Qwen3-30B-A3B。
其中,Qwen3-235B-A22B是本次发布中规模最大的旗舰模型,拥有2350亿个参数,激活参数超过220亿。
在代码、数学和通用能力等多个基准测试中,它的表现不仅超过了DeepSeek的R1开源模型,还优于OpenAI的闭源模型o1。尤其在软件工程和数学领域的ArenaHard测试(共500道题)中,成绩甚至接近了Google最新发布的Gemini2.5-Pro,可见其实力不容小觑。
另一个MOE模型Qwen3-30B-A3B拥有300亿总参数,激活参数仅为QwQ-32B的10%,约30亿,但实际表现却更胜一筹。甚至像Qwen3-4B这样的小模型,也能达到Qwen2.5-72B-Instruct的水平。
除了上述两款MOE模型,此次还发布了6款Dense模型,分别是:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B。这些模型在规模和结构上各不相同,方便用户根据具体需求和计算资源进行选择。
以上所有模型均在Apache2.0许可协议下开源,对开发者和研究者开放。
国内首个混合推理模型来了
从能力上来看,Qwen3系列模型经过特别训练,支持两种“思考模式”:快思考和慢思考,用官方的话就是“思考模式”和“非思考模式”。
思考模式:在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。
非思考模式:在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。
正因此,Qwen3是国内首个混合推理模型。
简单来说,就是Qwen3可以根据问题的难度,选择是快速给出答案,还是花更多时间进行更深层次的分析和推理。比如遇到一些复杂的数学、科学或工程类问题时,你可以切换到“深度思考模式”,让模型用更强的推理能力来处理问题。
Qwen团队在技术报告中解释道,“Qwen3展现出可扩展且平滑的性能提升,这与分配的计算推理预算直接相关。这样的设计让用户能够更轻松地为不同任务配置特定的预算,在成本效益和推理质量之间实现更优的平衡。”
使用方法也很简单:在QwenChat网站上,有一个专门的按钮可以切换“思考模式”;如果你是在本地部署或者通过API使用模型,也可以通过输入指令,比如/think或/no_think,自由切换不同模式,让模型根据任务难度灵活应对。
另外,Qwen3的多语言能力也有了很大提升,目前已经能支持多达119种语言和方言,基本覆盖了全球主要的语言体系。
还有一点也很值得关注,Qwen3在智能体(Agent)能力和编程(代码)方面也变得更强了,同时也更好地支持了MCP技术。下面这个视频展示Qwen3是如何思考并与环境进行交互的:
目前,经过后训练优化的Qwen3系列模型已经可以在多个平台上访问和部署,例如Qwen3-30B-A3B,以及对应的预训练基座模型(如Qwen3-30B-A3B-Base),已在HuggingFace、ModelScope和Kaggle等平台上线,面向公众开放使用。
普通用户也可以直接在QwenChat网页和手机App上使用。
快速体验Qwen3系列:
QwenChat网页版:https ://chat.qwen.ai/
GitHub:https ://github.com/QwenLM/Qwen3
HuggingFace:https ://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
魔搭社区:https ://modelscope.cn/collections/Qwen3-9743180bdc6b48

Qwen3强大的背后,离不开多阶段的预训练和后训练
在模型预训练方面,Qwen3相比之前的Qwen2.5有了大幅提升。此前Qwen2.5是在18万亿个token上进行预训练的,而Qwen3预训练使用的数据量几乎是其两倍,达到大约36万亿个token,涵盖了119种语言和方言。
这些数据来源包括网页抓取内容、PDF文档提取,还有用早期Qwen2.5-Math和Qwen2.5-Coder这两个数学和代码领域的专家模型合成数据,合成了包括教科书、问答对以及代码片段等多种形式的数据。
预训练
据官方技术报告介绍,Qwen3的预训练流程分为三个阶段:
在第一阶段(S1),模型在超过30万亿个token的海量数据上进行了初步训练,处理的文本长度是4Ktoken,主要目的是打下基本的语言理解和通用知识基础。
到了第二阶段(S2),训练重点有所调整,加入了更多像STEM(科学、技术、工程、数学)、编程和推理相关的专业数据,同时又在额外5万亿个token上进行了强化训练,进一步提升模型的专业能力。
最后,在第三阶段,Qwen团队用高质量的长文本数据,把模型的上下文长度扩展到了32Ktoken,让它能更好地处理超长输入,适应更复杂的应用场景。
得益于模型架构的优化、训练数据量的增加,以及更高效的训练方法,Qwen3的Dense(密集)基础模型整体表现已经追上了体积更大的Qwen2.5版本。比如,Qwen3的1.7B、4B、8B、14B和32B基础模型,整体能力分别能对标Qwen2.5的3B、7B、14B、32B和72B模型。
尤其在STEM(科学、技术、工程、数学)、编程和推理这类专业领域,Qwen3的表现甚至比Qwen2.5的大模型还要更好。
而对于Qwen3的MoE(混合专家)基础模型来说,它们每次推理时只激活大约10%的参数,但依然能做到接近Qwen2.5Dense基础模型的效果。这意味着,在保持高性能的同时,训练和推理的成本大大降低了。
后训练
为了打造既能深度推理又能快速响应的混合型大模型,Qwen3团队设计并执行了一套四阶段的后训练流程。具体包括:(1)长链推理冷启动、(2)长链推理强化学习、(3)思考与非思考模式融合、以及(4)通用能力强化学习。
在第一阶段,该团队通过大量涵盖数学、编程、逻辑推理和STEM等领域的长链推理数据,对模型进行了微调,打下了基本的推理能力基础。
第二阶段则引入了大规模的强化学习,通过设定规则奖励,引导模型在复杂问题中探索得更深入、更细致。
到了第三阶段,训练目标转向融合思考模式与快速响应模式。Qwen团队用一套混合了长链推理和常规指令微调的数据,对模型进行了再次微调,让它既能深度思考,又能根据任务需求快速作答,实现两种能力的平滑切换。
最后,在第四阶段,模型接受了更广泛领域的强化训练,覆盖指令遵循、格式规范、Agent能力等二十多个方向,进一步提升了模型的通用性,同时修正了在早期训练中可能出现的不良行为。
登顶开源宝座
这次阿里发布Qwen3,毫无疑问是一次重磅操作。据了解,阿里至今已向全球开源200多款模型,千问衍生模型数量已突破10万,超越美国Meta的Llama系列,成为全球最大的开源模型族群。可以说,Qwen3的发布不是一次普通的升级,而是真正的“登顶”。
外媒Venturebeat也对此做出了高度评价,称对于企业来说,接入Qwen3非常高效,几小时内就能将现有的OpenAI接口系统切换到新模型,根本不用几周。Qwen3的专家混合模型(MoE),在显存使用上相当节省,20-30B规模模型的显存成本就能实现接近GPT-4的推理能力。
更有意思的是,Qwen3提供了从0.6B到32B不同规模的密集模型版本,用户可以从笔记本小规模测试,一路扩展到多卡大集群,过程中几乎不用调整提示词。
Qwen3发布后,在用户层也受到了广泛好评。其GitHub页面迅速获得了17.9k个Star和1.2k的Fork,热度可见一斑。
在社交媒体上,不少网友们分享自己的一手体验感受。
有用户表示:“我刚试用了@Alibaba_Qwen的Qwen3。
在需要快速响应时,它非常迅速;面对复杂问题时,它会花时间思考。它不是随便给个答案,而是经过深思熟虑,给出准确的结果。
在编程方面,它表现出色;在数学问题上,它依然冷静应对。
在语言处理上,它听起来很自然,不像其他模型那样怪异。令我惊讶的是,它甚至支持多达119种语言。
很久没见过这么优秀的开源模型了。”
也有网友JafarNajafov感叹道:“这真是令人震惊。我将Qwen3和同规模的Llama进行对比,Qwen3的推理更深入,处理长上下文和解决复杂问题的速度都更快。它完全开源,原生支持混合推理,采用Apache2.0许可证。这不仅仅是更好,简直是全新的升级!”
甚至苹果工程师AwniHannun也在第一时间用M2苹果设备跑了Qwen3模型,随即发声道:“Qwen3235BMoE(22B激活参数)在M2Ultra上通过mlx-lm运行得非常快。4位模型大约用132GB内存,生成580个token的速度约为每秒28个!”
整体看来,Qwen3的上线,AI圈的反响都不错。
对此,Qwen团队开源负责人林俊旸在X平台上表示,Qwen3的开发过程中,团队解决了很多重要但容易被忽视的问题,比如:稳定的训练来扩展强化学习(RL)、平衡多领域数据,以及在提升多语言能力的同时不牺牲质量。
他还透露,未来团队将把重点转向训练能够进行长周期推理、执行真实世界任务的智能体。
那么,你体验上了Qwen3了吗?感觉怎么样?欢迎留言分享你的看法。
来源:
https ://qwenlm.github.io/zh/blog/qwen3/

https ://github.com/QwenLM/Qwen3
推荐阅读:
▶AI取代人类的第一步,就是剥夺我们“慢思考”的能力
▶一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
▶李建忠:大模型技术创新驱动的AI生态和应用演进


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录