近日,来自SGLang、英伟达等机构的联合团队发了一篇万字技术报告:短短4个月,他们就让DeepSeek-R1在H100上的性能提升了26倍,吞吐量已非常接近DeepSeek官博数据!
DeepSeek的含金量还在上升。
就在最近,Hugging Face联创、首席科学家Thomas Wolf表示——
DeepSeek的出现,是开源AI领域的ChatGPT时刻!
用他的话说,「正如ChatGPT让全世界认识到AI的存在,DeepSeek则让全世界意识到,原来还有着这样一个充满活力的开源社区。」
DeepSeek-R1的性能已经媲美甚至超越美国最顶尖的闭源AI模型,对于全球AI圈来说,这件事的意义都极其深远。
与此同时,来自SGLang、英伟达等机构的数十人联合团队,也在DeepSeek上整了个大活。
在短短4个月内,他们利用最新的SGLang推理优化,直接让DeepSeek-R1在H100上的性能提升了26倍!
这是怎么做到的?
团队发布了长篇博文,详细展示了这一过程。
文章地址:https://lmsys.org/blog/2025-05-05-large-scale-ep/
在96块H100 GPU上优化部署DeepSeek
要知道,DeepSeek模型因为庞大的参数,以及多头潜注意力(MLA)和专家混合机制(MoE)等独特架构,如果想要大规模部署,就必须使用更先进的系统。
为此,团队先是对SGLang进行了全面升级,完整支持了PD分离、大规模EP、DeepEP、DeepGEMM及EPLB等功能。
然后凭借这些新特性,成功地在12个节点共96块GPU的集群上,复现了DeepSeek的推理系统。
最终,在处理2000个token的输入序列时,实现了每个节点每秒52.3k输入token和22.3k输出token的吞吐量。
方案运行在Atlas Cloud的12个节点上,每个节点均配备8块H100 GPU
团队表示,这应该是首个吞吐量接近DeepSeek官方数据的开源实现。
在本地环境下部署此方案,成本可降至0.20美元/1M输出token,约为DeepSeek Chat API官方定价的五分之一。
相较于使用相同资源的原始张量并行策略,此优化方案可将输出吞吐量提升高达5倍。
接下来,团队深入探讨了他们的并行设计、优化方法以及最终成果。
并行设计
高效的并行化设计,对于控制DeepSeek架构的计算复杂度和内存需求至关重要。
针对以下关键组件,团队都给出了优化方案:注意力层、稠密前馈网络(FFN)、稀疏FFN以及语言模型(LM)的头部。
每个组件都采用了专门设计的并行化策略,以提升可扩展性、内存效率和整体性能。
注意力层
DeepSeek采用了多头潜注意力机制(MLA),从而能够有效地对输入序列中的复杂依赖关系进行建模。
为了优化这一机制,团队实现了DP attention,这是一种数据并行策略,目的是消除跨设备的KV缓存冗余,从而显著降低内存开销。
在SGLang v0.4版本中引入的该方法,现已扩展至支持混合数据并行和张量并行,为高效处理小批量数据提供了更大的灵活性。
稠密FFN
即便DeepSeek-V3仅使用了三个稠密FFN层,其计算过程仍然可能显著增加峰值内存占用,若不加以谨慎管理,极易导致系统崩溃。
为了解决这个问题,团队选择采用数据并行(DP)策略,而非张量并行(TP),主要是考虑到DP的以下优势。
· 更强的可扩展性
当中间层维度为18,432时,较高的TP度(例如TP32)会导致数据被低效地分割成小单元片段(例如576个单元),而这些单元无法被128整除。
128,就是现代GPU(如H100)常见的对齐边界。
这种未对齐的情况,会严重阻碍计算效率和内存利用率。
相比之下,DP能够避免数据碎片化,从而提供更具可扩展性的解决方案,确保跨设备的工作负载均衡分配。
· 优化的内存效率
传统观念认为,TP可以随着worker size的增加而降低内存使用量,但这种优势在DP attention的应用场景下会逐渐减弱。
在纯TP设置中,单层Transformer模型的内存需求与DP size的关系如下: