仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
阿里今日推出新一代开源大模型Qwen3系列,在代码、数学、通用能力等基准测试中达到顶级模型水平(如DeepSeek-R1、o1、Grok-3等)。
双重思考模式思考模式(深度推理)与非思考模式(快速响应)自由切换
多语言覆盖支持119种语言和方言
强化Agent能力优化代码与环境交互功能
Qwen3-235B-A22B
2350亿
220亿
Qwen3-30B-A3B
300亿
30亿
激活参数仅为QwQ-32B的10%
Qwen3-32B
64
128K
Qwen3-14B
40
128K
Qwen3-8B
36
128K
Qwen3-4B
36
32K
Qwen3-1.7B
28
32K
Qwen3-0.6B
28
32K
📌所有模型均基于Apache2.0许可证开源获取平台:HuggingFace|ModelScope|Kaggle
预训练规模36万亿token(达Qwen2.5的近两倍)
四阶段后训练
长思维链训练
强化学习优化
思维模式融合
通用能力强化
部署支持SGLang|vLLM|Ollama|LMStudio等框架
为了开发能够同时具备思考推理和快速响应能力的混合模型,Qwen3实施了一个四阶段的训练流程。该流程包括:
(1)长思维链冷启动
(2)长思维链强化学习
(3)思维模式融合
(4)通用强化学习。
在第一阶段,Qwen3使用多样的的长思维链数据对模型进行了微调,涵盖了数学、代码、逻辑推理和STEM问题等多种任务和领域。这一过程旨在为模型配备基本的推理能力。
第二阶段的重点是大规模强化学习,利用基于规则的奖励来增强模型的探索和钻研能力。
在第三阶段,Qwen3在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调,将非思考模式整合到思考模型中。确保了推理和快速响应能力的无缝结合。
最后,在第四阶段,Qwen3在包括指令遵循、格式遵循和Agent能力等在内的20多个通用领域的任务上应用了强化学习,以进一步增强模型的通用能力并纠正不良行为。
更详细的内容,做到Qwen3技术报告了
添加微信,备注”LLM“进入大模型技术交流群
如果你觉得这篇文章对你有帮助,别忘了点个赞、送个喜欢
/作者:致Great