DeepSeek又又开源了,这次拉爆GPU通信

智东西
25 Feb
Empire Petroleum Corp0.00%Post-market

作者|程茜

编辑|心缘

智东西2月25日报道,刚刚,DeepSeek开源周第二弹发布,第一个用于MoE模型训练和推理的开源EP通信库,发布不到一小时,GitHub Star数已上千。

DeepEP是为混合专家(MoE)和专家并行(EP)量身定制的通信库,其提供高吞吐量且低延迟的全对全GPU内核,这些内核也被称为MoE调度与合并。

高性能:支持用于节点内和节点间通信的NVLink和RDMA,以及用于非对称域带宽转发的优化内核;

低精度运算:FP8支持;

延迟敏感推理:提供使用纯RDMA的低延迟内核,以最大限度地减少推理解码的延迟;

通信-计算重叠:引入基于钩子的方法,不会占用任何流式多处理器(SM)资源;

自适应路由和流量隔离:支持低延迟内核自适应路由,支持虚拟通道流量隔离。

其中,为了与DeepSeek-V3论文中提出的组限制门控算法(group-limited gating algorithm)保持一致,DeepEP提供了一组针对非对称域带宽转发进行优化的内核,例如将数据从NVLink域转发到RDMA域。这些内核能够实现高吞吐量,使其既适用于训练任务,也适用于推理预填充任务。此外,它们还支持流式多处理器(SM)数量控制。

对于对延迟敏感的推理解码任务,DeepEP包含了一组采用RDMA技术的低延迟内核,以最大程度地减少延迟。该库还引入了一种基于钩子的通信与计算重叠方法,这种方法不会占用任何流式多处理器(SM)资源。

DeepSeek指出,DeepEP的实现可能与DeepSeek-V3论文中略有不同。

GitHub地址:https://github.com/deepseek-ai/DeepEP

具体性能方面:

在H800(NVLink的最大带宽约为160 GB/s)上测试常规内核,每台设备都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),并且遵循DeepSeek-V3/R1预训练设置(每批次4096个Tokens,7168个隐藏层单元,前4个组,前8个专家(模型),使用FP8格式进行调度,使用BF16格式进行合并)。

在H800上测试低延迟内核,每台H800都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),遵循DeepSeek-V3/R1的典型生产环境设置(每批次128个Tokens,7168个隐藏层单元,前8个专家(模型),采用FP8格式进行调度,采用BF16格式进行合并)。

快速启动要求:

下载并安装NVSHMEM依赖项:

开发:

安装:

网络配置:

接口和示例:

DeepSeek发布的推文一小时浏览量高达12万,评论区下方开发者们直接进入夸夸夸模式:

“DeepSeek在MoE模型方面所实现的优化程度颇高,而MoE模型因其规模和复杂性而向来极具挑战性。DeepEP能够借助像NVLink和RDMA这类尖端硬件,如此精准地处理相关任务,并且还支持FP8格式,这着实令人惊叹。”

“对NVLink和RDMA的支持,为大规模的MoE模型带来了变革性的影响。看来DeepSeek又一次突破了AI基础设施的极限。”

还有人直接做了表情包:“跟着鲸鱼找到鱼。”

结语:深度探索开源宇宙DeepSeek还有三弹重磅发布

从带飞GPU推理速度的FlashMLA到开源EP通信库,DeepSeek开源周第二大重磅发布再次点燃AI圈的热情。本周后续,DeepSeek还将开源三个代码库,或许会与AI算法优化、模型轻量化、应用场景拓展等相关,涵盖多个关键领域。

期待接下来的三场技术盛宴,向开源者们致敬。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

no data

No relevant data is available

If the download button clicks without skipping, click on the top right menu and select "Open in Browser."