SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
采访嘉宾|尹良升,SGLang核心开发者
编辑|罗燕珊
作为开源社区近年来备受瞩目的推理引擎,SGLang自发布以来持续迭代优化。截至2025年6月,其在GitHub上已收获近15KStars,月均下载量突破10万次。凭借出色的性能表现和设计,SGLang已被多个行业巨头采纳:包括xAI(用于部署Grok3)、MicrosoftAzure(用于运行DeepSeekR1)、NVIDIA和AMD(深度集成),以及LinkedIn、美团等在内的多家企业,均已在生产环境中将其投入使用。在DeepSeekR1发布时,SGLang便成为其官方推荐的推理引擎之一。
2025年5月,SGLang提出了第一个完全开源的DeepSeek大规模专家并行部署方案,该方案也是目前开源实现中唯一能够复现官方博客所述推理性能和成本的方案。
近日,InfoQ专访了SGLang核心开发者尹良升,他分享了该项目背后的关键技术、工程挑战与社区生态,以及如何在大模型推理中实现性能与成本的平衡。从PD分离架构带来的尾延迟控制,到推测解码提升Token生成速度,再到KV缓存落盘在多轮对话中的显存优化——这些关键能力使SGLang成为支持低成本、大规模模型部署的高性能推理引擎。
尹良升,现就读于上海交通大学ACM班,即将前往加州大学伯克利分校SkyComputing攻读计算机博士学位。他是SGLang最早期的几位核心开发者之一,深度参与了SGLang的研发和优化。
6月27~28日,在即将于北京举办的AICon全球人工智能开发与应用大会上,尹良升将发表演讲《SGLang推理引擎——高效的开源部署方案》,将深入解析前沿大模型推理关键技术,并探讨其在实际应用中的优化与落地,同时结合最新版本展示如何以极低的成本部署DeepseekV3/R1等开源大语言模型。敬请期待:https ://aicon. infoq.cn/2025/beijing/presentation/6453
InfoQ:SGLang开源推理引擎受到不少一线公司的采用。你觉得它最核心的技术优势是什么?相比其他开源方案,有哪些关键差异?
尹良升:我认为SGLang最核心的优势在于高性能的实现和易于二次开发的代码。从RadixAttention、高效的架构设计、OverlapScheduling,到成功复现并集成了像PD分离、大规模EP等前沿技术,SGLang实现了对不同主流模型的SOTA部署支持。这是我们区别于其他方案的关键。
InfoQ:你的演讲会介绍PD分离、推测解码、KV缓存落盘等关键技术,这些优化在实际部署中解决了哪些痛点?
尹良升:
PD分离:它解决了在Prefill和Decode混合部署时,Decode经常被Prefill打断导致的延迟波动大、P99尾延迟高的问题。分离部署后,Decode的延迟变得均匀且稳定。同时,这种分离允许Prefill和Decode采用不同的部署策略和并行方式(比如不同的并行度),从而能更高效地利用资源。
推测解码:这项技术的核心目标是降低Decode延迟。它通过利用模型隐藏层信息和小模型辅助,经过验证后一次预测多个Token(相当于“一次解码,多步输出”),显著提升Decode速度,达到事半功倍的效果。
KV缓存落盘:在多轮对话等需要复用之前计算出的KVcache的场景下,GPU显存容量有限,难以存储所有用户的历史记录。KV缓存落盘技术将不立即需要的、以往计算的KVcache存储在内存或硬盘等大容量存储设备中。当后续对话轮次需要复用这些历史上下文时,可以直接加载缓存的KV值,避免了重复进行耗时的Prefill计算,从而减少计算量并有效降低响应延迟。
InfoQ:你的演讲会介绍PD分离、推测解码、KV缓存落盘等关键技术,这些优化在实际部署中解决了哪些痛点?
尹良升:平衡性能、资源利用率和成本需要根据下游任务进行Trade-off:在离线批处理(OfflineBatch)等对延迟不敏感的场景下,目标是最大化GPU显存利用率和批处理大小以提升吞吐、摊薄成本;而在线上推理等对延迟敏感的场景,则倾向于投入更多资源处理较少并发请求(如降低并行BatchSize),优先保障每个请求的Token生成速度。
InfoQ:并行部署技术(如专家并行、注意力并行)越来越复杂,兼容性是一个现实挑战。SGLang在支持多种并行方案上有哪些经验或踩坑故事?
尹良升:在实现多种并行方案(比如专家并行)和分离式部署架构的过程中,我们踩的坑不仅仅在算法实现的初期,很多工程上的挑战更大。比如实现DeepEP时,它的通讯和Prefill/Decode(PD)之间传输KV缓存的时间需要重叠,这就容易导致网卡资源被同时争抢、CPU负载过大、PythonGIL锁得不到及时释放等问题。
InfoQ:结合你的体验,能否分享下你认为SGLang社区是如何推动技术演进和应用场景落地之间的良性循环?
尹良升:SGLang的核心是开源,让人人都能参与开发和贡献。我们广泛进行技术分享,旨在增强社区认同感并吸引新成员。社区的技术进步直接加速了应用落地,而我们超过100k显卡规模的大规模工业部署经验及来自社区的真实反馈,又持续指引着技术演进的方向,确保我们走在正确的道路上。
InfoQ:目前做大语言模型推理,除了算力之外,你认为开发者最容易忽视但最影响上线效率的环节是什么?
尹良升:算力是基础,但拥有庞大的算力集群并不等于就有很高的实际部署性能。用户在实际使用中往往对延迟(Latency)等指标非常敏感。这种情况下,即使吞吐量能随着算力增长而提升,延迟指标却不一定能随之优化。我们认为最容易被忽视、也最拖慢上线效率的环节,是面对几十甚至上百个配置参数(Config)的调试工作!如何高效地找到最优组合是巨大的挑战。“开箱即用”的配置通常不是最好的,精细化的调试才是关键难点。
InfoQ:对于关注大语言模型部署效率和成本控制的开发者来说,你希望他们在听完这场分享后,能带走哪些实用的经验或启发?
尹良升:希望大家能认识到:模型规模只会越来越大,依赖单卡会越来越吃力。利用更多的GPU和高效的并行策略是实现高性能、低成本部署的必经之路。SGLang在支持超大规模模型部署方面走在了前沿,积累了宝贵经验。我们非常欢迎大家一起来学习、实践,甚至参与贡献,共同推动这项技术的发展!
活动推荐
6月27~28日的AICon北京站将继续聚焦AI技术的前沿突破与产业落地,围绕AIAgent构建、多模态应用、大模型推理性能优化、数据智能实践、AI产品创新等热门议题,深入探讨技术与应用融合的最新趋势。欢迎持续关注,和我们一起探索AI应用的无限可能!
今日荐文
字节AI卷出新高度:豆包试水“上下文定价”,Trae覆盖内部80%工程师,战略瞄定三主线
苹果憋一年终超同参数Qwen2. 5?三行代码即可接入AppleIntelligence,自曝如何做推理
YannLeCun炮轰AnthropicCEO!这人“既要又要”:要么太自大、要么不诚实
曝豆包多模态负责人准备离职;马云频繁要求汇报Qwen3开发进度;北大“韦神”粉丝破2000万,评论区变高考许愿池|AI周报
别被MCP的包装骗了!重构系统、向智能体转型,CEO亲述:关键时刻还是RPA兜底?
你也「在看」吗?👇