全球首个,最接近原版DeepSeek开源复现来了!R1四个月狂飙26倍

近日,来自SGLang、英伟达等机构的联合团队发了一篇万字技术报告:短短4个月,他们就让DeepSeek-R1在H100上的性能提升了26倍,吞吐量已非常接近DeepSeek官博数据!

近日,来自SGLang、英伟达等机构的联合团队发了一篇万字技术报告:短短4个月,他们就让DeepSeek-R1在H100上的性能提升了26倍,吞吐量已非常接近DeepSeek官博数据!

DeepSeek的含金量还在上升。

就在最近,Hugging Face联创、首席科学家Thomas Wolf表示——

DeepSeek的出现,是开源AI领域的ChatGPT时刻!

用他的话说,「正如ChatGPT让全世界认识到AI的存在,DeepSeek则让全世界意识到,原来还有着这样一个充满活力的开源社区。」

DeepSeek-R1的性能已经媲美甚至超越美国最顶尖的闭源AI模型,对于全球AI圈来说,这件事的意义都极其深远。

全球首个,最接近原版DeepSeek开源复现来了!R1四个月狂飙26倍

与此同时,来自SGLang、英伟达等机构的数十人联合团队,也在DeepSeek上整了个大活。

在短短4个月内,他们利用最新的SGLang推理优化,直接让DeepSeek-R1在H100上的性能提升了26倍!

全球首个,最接近原版DeepSeek开源复现来了!R1四个月狂飙26倍

这是怎么做到的?

团队发布了长篇博文,详细展示了这一过程。

全球首个,最接近原版DeepSeek开源复现来了!R1四个月狂飙26倍

文章地址:https://lmsys.org/blog/2025-05-05-large-scale-ep/

全球首个,最接近原版DeepSeek开源复现来了!R1四个月狂飙26倍

在96块H100 GPU上优化部署DeepSeek

要知道,DeepSeek模型因为庞大的参数,以及多头潜注意力(MLA)和专家混合机制(MoE)等独特架构,如果想要大规模部署,就必须使用更先进的系统。

为此,团队先是对SGLang进行了全面升级,完整支持了PD分离、大规模EP、DeepEP、DeepGEMM及EPLB等功能。

然后凭借这些新特性,成功地在12个节点共96块GPU的集群上,复现了DeepSeek的推理系统。

最终,在处理2000个token的输入序列时,实现了每个节点每秒52.3k输入token和22.3k输出token的吞吐量。

全球首个,最接近原版DeepSeek开源复现来了!R1四个月狂飙26倍

方案运行在Atlas Cloud的12个节点上,每个节点均配备8块H100 GPU

团队表示,这应该是首个吞吐量接近DeepSeek官方数据的开源实现。

在本地环境下部署此方案,成本可降至0.20美元/1M输出token,约为DeepSeek Chat API官方定价的五分之一。

相较于使用相同资源的原始张量并行策略,此优化方案可将输出吞吐量提升高达5倍。

接下来,团队深入探讨了他们的并行设计、优化方法以及最终成果。

并行设计

高效的并行化设计,对于控制DeepSeek架构的计算复杂度和内存需求至关重要。

针对以下关键组件,团队都给出了优化方案:注意力层、稠密前馈网络(FFN)、稀疏FFN以及语言模型(LM)的头部。

每个组件都采用了专门设计的并行化策略,以提升可扩展性、内存效率和整体性能。

注意力层

DeepSeek采用了多头潜注意力机制(MLA),从而能够有效地对输入序列中的复杂依赖关系进行建模。

为了优化这一机制,团队实现了DP attention,这是一种数据并行策略,目的是消除跨设备的KV缓存冗余,从而显著降低内存开销。

在SGLang v0.4版本中引入的该方法,现已扩展至支持混合数据并行和张量并行,为高效处理小批量数据提供了更大的灵活性。

稠密FFN

即便DeepSeek-V3仅使用了三个稠密FFN层,其计算过程仍然可能显著增加峰值内存占用,若不加以谨慎管理,极易导致系统崩溃。

为了解决这个问题,团队选择采用数据并行(DP)策略,而非张量并行(TP),主要是考虑到DP的以下优势。

· 更强的可扩展性

当中间层维度为18,432时,较高的TP度(例如TP32)会导致数据被低效地分割成小单元片段(例如576个单元),而这些单元无法被128整除。

128,就是现代GPU(如H100)常见的对齐边界。

这种未对齐的情况,会严重阻碍计算效率和内存利用率。

相比之下,DP能够避免数据碎片化,从而提供更具可扩展性的解决方案,确保跨设备的工作负载均衡分配。

· 优化的内存效率

传统观念认为,TP可以随着worker size的增加而降低内存使用量,但这种优势在DP attention的应用场景下会逐渐减弱。

在纯TP设置中,单层Transformer模型的内存需求与DP size的关系如下:

全球首个,最接近原版DeepSeek开源复现来了!R1四个月狂飙26倍

给TA打赏
共{{data.count}}人
人已打赏
AI新闻资讯

OpenAI重磅官宣:帮全球各国造星际之门!奥特曼亲临现场晒照

2025-5-9 13:00:39

AI新闻资讯

人形机器人泡沫破裂?独角兽达闼停摆,硅谷明星 Figure 陷“造假”风波

2025-5-9 13:16:09

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索