Qwen3开源,性能越级,混合模式,Dense与MoE共8种尺寸
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
01
模型简介
经过漫长的等待,Qwen3终于开源了🥳🎉五一假期又可以愉快地和Qwen3玩耍了。
本次Qwen3开源的模型尺寸丰富,从0.6B到235B,包含Dense和MoE两种结构,一共8种尺寸。Dense模型包括32B/14B/8B/4B/1.7B/0.6B,MoE模型包括235B-A22B(参数量235B激活22B)和30B-A3B(参数量30B激活3B)。
Qwen3的主要特点包括:
混合模式:一个模型同时支持推理模式和非推理模式。推理模式,如同QwQ和DeepSeek-R1,模型的输出具有长思考过程,能显著提升性能;非推理模式,即常规的Chat模式,无长思考过程。更有意思的是,在多轮对话中,用户可以实现两种模式的丝滑无缝切换,用户可按自身需求决定使用何种模式。
性能强悍:模型在推理模式与非推理模式中,都分别显著优于前代模型QwQ和Qwen2.5。Qwen3在数学、代码、思维逻辑、创意写作、角色扮演、指令遵循等各方面都有显著提升。
Agent能力:优化了Qwen3的Agent和代码能力,同时也加强了对MCP的支持。
支持百种语言:Qwen3支持119多种语言和方言,具有强大的多语言指令跟随与翻译能力,利好小语种场景。
Qwen3还支持“ThinkingBudget”,可以根据用户设置的思考长度进行动态调整,“ThinkingBudget”越长,能力越强。
HF链接:https ://huggingface.co/collections/Qwen/qwen3
ModelScope链接:https ://modelscope.cn/collections/Qwen3
02
训练详情
预训练阶段,Qwen3使用了36Ttoken,是Qwen2.5的两倍,预训练阶段主要包括以下流程:
S1:使用30Ttoken,在4K上下文长度中进行训练,此阶段主要让模型学习语言能力和通用知识。
S2:使用额外的5Ttoken进行预训练,主要包括数学、代码、推理、STEM等数据。
长序列训练:使用高质量的长文本数据,进行32K上下文训练,提高模型在长文本场景中的能力。
Qwen3-235B-A22B在各项指标中显著优于DeepSeek-V3、Llama4-Maverick等开源模型。
Post-Training阶段的流程如下。
对于旗舰模型,例如Qwen3-235B-A22B和Qwen3-32B,主要包括四个阶段:
长思维链冷启动:使用数学、代码、推理、STEM等数据,对模型进行Finetune,让模型具备推理能力。
长思维链强化学习:使用RL进一步提升模型的推理能力。
思维模式混合:使用长推理数据与指令数据,对模型进行Finetune,让模式掌握两种模式。
通用强化学习:使用RL对模型的各项通用能力进行强化提升。
而对于非旗舰的小模型,则是从更大的模型中蒸馏而来。蒸馏的技术细节可以期待后续的技术报告。
通过上述流程,旗舰模型Qwen3-235B-A22B能够取得与o1、o3-mini、Grok3、DeepSeek-R1和Gemini2.5-Pro等顶级模型相当的性能。
更令人惊艳的是,Qwen3小尺寸模型的越级能力。在AIME24/AIME25/LiveCodeBench/GPQ上,小尺寸都能越级比肩很多大尺寸的开源模型。甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能
给公众号添加【星标⭐️】不迷路
您的点赞、在看、关注是我坚持的最大动力!