从 0 手撕 LLM 分布式训练:DP, ZeRO, TP, PP, CP, EP
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
我是小冬瓜AIGC
X-R1开源框架|现高校LLM对齐研究
课程帮助学员拿下OpenAI,Meta等
小红书/知乎:小冬瓜AIGC
DeepSeek-V3的AI-Infra将性能压榨到极致。
V3用DualPipe+EP(计算-通信-重叠)构建了分布式训练框架。
LLM分布式训练技术由于多机多卡的机器要求,难以入门和精通
本Lecture基于Pytorch从0手撕DP,TP,PP,CP,EP,而且把Backward也写了,全实例可运行。具体包含:
纯Pytorch从零手撕5大并行算法:DP、TP、PP、CP、EP。不依赖DeepSpeed和Megatron框架,
手撕关键算法Backward梯度和ZeRO-adam,硬核实现MoEEP1F1B下的通信-计算重叠
Step-by-step手撕DP:ZeRO-3、TP:Llama、CP:RingAttention、PP:DualPipe、EP:Gshard等经典算法
不需要多卡环境,纯CPUGLOObackend可运行所有实例,无须triton和cuda等基础
展示分布式代码截选
Lecture摘选了EasyDualPipe开源https ://github. com/dhcode-cpp/easy-dualpipe
更多详情了解《手撕LLM》课程
课程内容:直播+往期录播+手撕级Notebook+非调包Code+算法图解+课程PPT
课程项目:垂域大模型实操+多卡DeepSpeedRLHF训练+R1模型训练实操⚠️
进阶专题:手撕RL、手撕RLHF、手撕分布式训练、手撕多模态VLM、LLM加速、手撕RLHF-PPONotebook
实操效果:X-R1实操<50元成本出效果;已全线支持Llama-3-8B/70B的SFT/DPO/PPO多卡训练;低成本百元8BDPO训练;
入门要求:Pytorch+神经网络或深度学习基础
2. 2【手撕LLM-第9/10章节】RL/RLHF
2. 3【手撕LLM-第11章】LLM加速(长文档)
2. 4【手撕LLM-第12章】分布式训练(长文档+代码)
2. 5【手撕LLM-第13章】手撕多模态VLM(长文档+Notebook)
2. 6【手撕LLM-第14章】手撕o1推理(长文档+Notebook+PRM实操)
分布式训练:DP、ZeRO1/2/3、GQATP、DualPipe、GShard、计算通信重叠等
测评:vllm推理部署、CMMLU、MMLU、CEVAL、safety测评
在线直播授课+Notebook+源码工程+关键算法图解+课程PPT+课后答疑+完整垂域大模型实操项目+多卡Deepspeed+RLHFPPO实操+R1训练实操
实操项目仓库MA-RLHF:课程私密代码仓库,实操项目和手撕Notebook长期更新。
包含R1原理讲解,手撕GRPO,X-R1框架训练:<50元复现0. 5B数学推理。
实操模型开源至huggingface🤗:xiaodongguaAIGC/X-R1-3B
基于Qwen-2. 5-0. 5B/1. 5B/3B训练曲线:
中文数学推理示例
基于Llama-3-8B预训练模型,混合中英alpaca和ruozhiba数据。
全参微调SFT,QLoRA高效微调DPO、RewardModel和PPO,低成本即可run出项目效果,可测评MMLU/Ceval。轻松回复ruozhiba问题
实操模型开源至huggingface🤗:xiaodongguaAIGC/xdg-llama-3-8B
从0搭建LLM,覆盖LLaMA-LoRA-Pretrain-sft-RM-RLHF
不依赖DeepSpeed和Megatron框架,纯Pytorch从零手撕5大并行算法:DP、TP、PP、CP、EP分布式训练算法。
硬核手撕关键算法Backward,手撕分布式gradient和adam,硬核实现MoEEP1F1B下的通信-计算重叠
Step-by-step手撕DP:ZeRO-3、TP:Llama、CP:RingAttention、PP:DualPipe、EP:Gshard等经典算法
不需要多卡环境,纯CPUGLOObackend可运行所有实例,无须triton和cuda等基础
手撕分布式训练所实现代码包含:
以下展示节选并行训练代码,摘选开源示例git:dhcode-cpp/easy-dualpipe。
3. 5源码工程+Notebook
3. 6课程形式
四、LLM社群&教学成果4. 1部分教学成果
学员超过50%来自海外,北美PhD居多
部分学员就职:OpenAI、META、谷歌Gemini、微软、亚麻、苹果、谷歌、TikTok、高通和eBay等,部分阿里、百度、腾讯和华为等
学历背景:海外MIT、UCLA、UIUC、NYU、UCL等;国内清北、复旦居多。
我是小冬瓜AIGC
X-R1开源框架|现高校LLM对齐研究
课程帮助学员拿下OpenAI,Meta等
小红书/知乎:小冬瓜AIGC
微信咨询xiaodongguaAIGC