SGLang放大招,DeepSeek V3、R1 部署性能和成本双重突破


SGLang放大招,DeepSeek V3、R1 部署性能和成本双重突破

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大家好,我是Ai学习的老章
刚刚!DeepSeek-Prover-V2技术细节公布,附论文
DeepSeek-R2倒计时?或将由华为芯片驱动
近年来,随着大语言模型(LLM)的快速发展,如何高效部署和优化这些模型以满足高吞吐量、低成本的需求成为行业热点。
5月5日,LMSYSOrg在X平台发布了一则令人振奋的消息:SGLang提供了首个开源实现,用于在96个GPU上服务DeepSeekV3/R1模型,通过预填充-解码分离(prefill-decodedisaggregation)和大规模专家并行(expertparallelism,EP)技术,实现了惊艳的性能提升和成本优化。本文将详细解析这一突破性进展,并结合相关图表进行直观展示。
SGLang的开源实现:性能接近官方数据
LMSYSOrg宣布,SGLang成功实现了DeepSeekV3/R1模型的高效服务,其核心在于利用预填充-解码分离和专家并行技术,在96个GPU的集群上运行。具体而言,这一实现取得了以下性能:
输入吞吐量:每节点每秒52.3K输入token;
输出吞吐量:每节点每秒22.3K输出token。
这一数据几乎与DeepSeek官方博客报告的吞吐量相当,显示出SGLang优化的强大潜力。更令人印象深刻的是,与传统的张量并行(tensorparallelism)相比,SGLang的优化策略将输出吞吐量提升了高达5倍。
以下是LMSYSOrg提供的性能对比图表,直观展示了不同并行策略下的吞吐量表现:
吞吐量对比图图1:输入和输出吞吐量对比

右图展示了输出token吞吐量(OutputTokensPerSecond),在不同输出长度(0%、15%、100%)下,SGLang的性能依然领先,尤其是结合EP和TP的混合策略(橙色柱)。
预填充-解码分离与专家并行:技术核心解析
SGLang的成功离不开两大关键技术:预填充-解码分离和专家并行。以下是对这两项技术的简要解析:
预填充-解码分离(Prefill-DecodeDisaggregation)
预填充(prefill)和解码(decode)是大语言模型推理的两个主要阶段。预填充阶段需要快速处理输入token以生成初始上下文,而解码阶段则逐个生成输出token。传统的并行策略(如张量并行)通常将两者绑定在同一组GPU上,但这往往无法同时满足两阶段的不同性能需求。
SGLang的解决方案是将预填充和解码阶段分离到不同的GPU组,并为每个阶段定制并行策略。例如:
预填充阶段更适合使用张量并行(TP),以满足低延迟需求(如聊天机器人要求首次响应时间低于0.2秒)。
解码阶段则更适合数据或流水线并行,以提升吞吐量,匹配人类阅读速度。
LMSYSOrg提供了以下架构图,展示了这一分离策略的具体实现:
预填充-解码分离架构
图2:预填充-解码分离架构
图中展示了12个节点(每节点8个H100GPU)的部署方式。预填充工作节点(PrefillWorkers)负责初始上下文生成,解码工作节点(DecodeWorkers)则专注于生成输出token。
通过KVCache传输,两个阶段高效协作,大幅提升了整体性能。
专家并行(ExpertParallelism,EP)及优化技术
DeepSeekV3/R1模型采用了混合专家(MoE)架构,这种架构通过将计算任务分配给多个“专家”来提升性能,但也带来了负载不均衡和通信开销的挑战。SGLang引入了专家并行(EP)并结合多项优化技术来解决这些问题:
DeepEP:专为MoE架构设计的通信库,支持高效的“all-to-all”通信模式,在NVLink和RDMA上实现了接近理论峰值的性能(分别达到158GB/s和47GB/s)。
EPLB(ExpertParallelLoadBalancing):解决专家负载不均衡问题,确保计算资源的高效利用。
Two-BatchOverlap:通过双批次重叠隐藏通信开销,进一步提升吞吐量。
DeepGemm:优化了FP8精度的矩阵乘法运算(GEMM),显著提升计算效率。
以下图表展示了双批次重叠的效果:
双批次重叠效果
图3:双批次重叠优化
上图展示了无序调度下的资源浪费(WastedMLP)。
下图展示了通过双批次重叠实现的计算与通信重叠,显著提升了效率。
成本优化:每百万token仅0.20美元
除了性能提升,SGLang的实现还大幅降低了运行成本。通过在AtlasCloud上部署12个节点(每节点8个H100GPU),SGLang将输出token的成本降至每百万token0.20美元,仅为DeepSeek官方ChatAPI成本的五分之一。
这一成本优势得益于本地化部署和高效的资源利用。相比之下,DeepSeek官方API的高成本可能源于云端基础设施的运营费用,而SGLang的开源实现允许用户直接在本地集群上运行模型,极大降低了依赖外部服务的开销。
这一成果是多个机构开源协作的典范,LMSYSOrg在帖子中特别感谢了NVIDIA、LinkedIn和Kimi_Moonshot等合作伙伴的贡献。同时,他们呼吁社区进一步探索、复制和扩展这项工作,共同推动高效AI部署的边界。
此外,AMD也在2025年4月宣布,其Instinct™GPU已通过SGLang优化支持DeepSeekV3模型,进一步扩展了这一技术的影响力。未来,随着DeepSeekR2等新模型的推出,SGLang的优化策略有望在更广泛的场景中得到应用。
总结
SGLang的开源实现通过预填充-解码分离和专家并行技术,为DeepSeekV3/R1模型的部署带来了性能和成本的双重突破。其吞吐量接近官方数据,输出性能提升高达5倍,同时将成本降低至每百万token0.20美元。结合直观的图表(如吞吐量对比、架构图和优化效果图),我们可以看到这一技术如何在实际场景中高效运行。
对于AI从业者和研究者来说,SGLang的开源代码和详细博客(链接[1])提供了宝贵的参考,值得深入探索和实践。这一成果不仅展示了开源社区的强大力量,也为大语言模型的高效部署树立了新的标杆。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12章)图解机器学习-中文版(72张PNG)ChatGPT、大模型系列研究报告(50个PDF)108页PDF小册子:搭建机器学习开发环境及Python基础116页PDF小册子:机器学习中的概率论、统计学、线性代数史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等
参考资料
链接:https ://t.co/D5J9n2LdZ5


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录