全球首个，最接近原版DeepSeek开源复现来了！R1四个月狂飙26倍

近日，来自SGLang、英伟达等机构的联合团队发了一篇万字技术报告：短短4个月，他们就让DeepSeek-R1在H100上的性能提升了26倍，吞吐量已非常接近DeepSeek官博数据！

DeepSeek的含金量还在上升。

就在最近，Hugging Face联创、首席科学家Thomas Wolf表示——

DeepSeek的出现，是开源AI领域的ChatGPT时刻！

用他的话说，「正如ChatGPT让全世界认识到AI的存在，DeepSeek则让全世界意识到，原来还有着这样一个充满活力的开源社区。」

DeepSeek-R1的性能已经媲美甚至超越美国最顶尖的闭源AI模型，对于全球AI圈来说，这件事的意义都极其深远。

全球首个，最接近原版DeepSeek开源复现来了！R1四个月狂飙26倍

与此同时，来自SGLang、英伟达等机构的数十人联合团队，也在DeepSeek上整了个大活。

在短短4个月内，他们利用最新的SGLang推理优化，直接让DeepSeek-R1在H100上的性能提升了26倍！

全球首个，最接近原版DeepSeek开源复现来了！R1四个月狂飙26倍

这是怎么做到的？

团队发布了长篇博文，详细展示了这一过程。

全球首个，最接近原版DeepSeek开源复现来了！R1四个月狂飙26倍

文章地址：https://lmsys.org/blog/2025-05-05-large-scale-ep/

全球首个，最接近原版DeepSeek开源复现来了！R1四个月狂飙26倍

在96块H100 GPU上优化部署DeepSeek

要知道，DeepSeek模型因为庞大的参数，以及多头潜注意力（MLA）和专家混合机制（MoE）等独特架构，如果想要大规模部署，就必须使用更先进的系统。

为此，团队先是对SGLang进行了全面升级，完整支持了PD分离、大规模EP、DeepEP、DeepGEMM及EPLB等功能。

然后凭借这些新特性，成功地在12个节点共96块GPU的集群上，复现了DeepSeek的推理系统。

最终，在处理2000个token的输入序列时，实现了每个节点每秒52.3k输入token和22.3k输出token的吞吐量。

全球首个，最接近原版DeepSeek开源复现来了！R1四个月狂飙26倍

方案运行在Atlas Cloud的12个节点上，每个节点均配备8块H100 GPU

团队表示，这应该是首个吞吐量接近DeepSeek官方数据的开源实现。

在本地环境下部署此方案，成本可降至0.20美元/1M输出token，约为DeepSeek Chat API官方定价的五分之一。

相较于使用相同资源的原始张量并行策略，此优化方案可将输出吞吐量提升高达5倍。

接下来，团队深入探讨了他们的并行设计、优化方法以及最终成果。

并行设计

高效的并行化设计，对于控制DeepSeek架构的计算复杂度和内存需求至关重要。

针对以下关键组件，团队都给出了优化方案：注意力层、稠密前馈网络（FFN)、稀疏FFN以及语言模型（LM）的头部。

每个组件都采用了专门设计的并行化策略，以提升可扩展性、内存效率和整体性能。

注意力层

DeepSeek采用了多头潜注意力机制（MLA)，从而能够有效地对输入序列中的复杂依赖关系进行建模。

为了优化这一机制，团队实现了DP attention，这是一种数据并行策略，目的是消除跨设备的KV缓存冗余，从而显著降低内存开销。

在SGLang v0.4版本中引入的该方法，现已扩展至支持混合数据并行和张量并行，为高效处理小批量数据提供了更大的灵活性。

稠密FFN

即便DeepSeek-V3仅使用了三个稠密FFN层，其计算过程仍然可能显著增加峰值内存占用，若不加以谨慎管理，极易导致系统崩溃。

为了解决这个问题，团队选择采用数据并行（DP）策略，而非张量并行（TP)，主要是考虑到DP的以下优势。

· 更强的可扩展性

当中间层维度为18,432时，较高的TP度（例如TP32）会导致数据被低效地分割成小单元片段（例如576个单元），而这些单元无法被128整除。

128，就是现代GPU（如H100）常见的对齐边界。

这种未对齐的情况，会严重阻碍计算效率和内存利用率。

相比之下，DP能够避免数据碎片化，从而提供更具可扩展性的解决方案，确保跨设备的工作负载均衡分配。

· 优化的内存效率

传统观念认为，TP可以随着worker size的增加而降低内存使用量，但这种优势在DP attention的应用场景下会逐渐减弱。

在纯TP设置中，单层Transformer模型的内存需求与DP size的关系如下：

全球首个，最接近原版DeepSeek开源复现来了！R1四个月狂飙26倍

{{userData.name}}已认证

全球首个，最接近原版DeepSeek开源复现来了！R1四个月狂飙26倍

在96块H100 GPU上优化部署DeepSeek

并行设计

OpenAI重磅官宣：帮全球各国造星际之门！奥特曼亲临现场晒照

人形机器人泡沫破裂？独角兽达闼停摆，硅谷明星 Figure 陷“造假”风波

如何使用即梦3.0模型？

AI写作-DeepSeek虚拟伴侣指令之AI男友角色设定

AI绘画-即梦ai智能参考功能实测

豆包 1.5 · 深度思考模型上线边缘大模型网关可免费领百万Tokens

AI变天！HeyGen发布“有灵魂”的数字人Avatar IV 一张照片秒变“戏精”数字人，表情比真人还细腻

ICML 2025 | 视频生成模型无损加速两倍，秘诀竟然是「抓住attention的时空稀疏性」