DeepSeek代码开源第二弹：DeepEP通讯库，优化GPU通讯_美高梅棋牌官网

DeepSeek代码开源第二弹：DeepEP通讯库，优化GPU通讯

作者：[db:作者] 发布时间：2025-02-27 08:31

【TechWeb】2月25日新闻，继昨天开源Flash MLA后，DeepSeek本日向大众开源了DeepEP——第一个用于MoE模子练习跟推理的开源EP通讯库。据先容，DeepEP是一个用于MoE（混杂专家）模子练习跟推理的EP（Expert Parallelism）通讯库，它为全部GPU内核供给高吞吐量跟低耽误，也称为MoE调理跟组合。该库还支撑低精度操纵，包含FP8。同时，DeepEP针对NVLink（NVLink是英伟达开辟的高速互联技巧，重要用于GPU之间的通讯，晋升带宽跟下降耽误）到RDMA（近程直接内存拜访，一种收集数据传输技巧‌，用于跨节点高效通讯）的非对称带宽转发场景停止了深度优化，不只供给了高吞吐量，还支撑SM（Streaming Multiprocessors）数目把持，统筹练习跟推理义务的高吞吐量表示。对对耽误敏感的推懂得码，DeepEP包括一组低耽误内核跟纯RDMA，以最年夜限制地增加耽误。该库还引入了一种基于钩子的通讯盘算堆叠方式，该方式不占用任何SM资本。DeepSeek称，DeepEP的实现可能与DeepSeek-V3论文略有差别。DeepSeek还列出了DeepEP的现实机能：在H800（NVLink的最年夜带宽约为160 GB/s）上测试惯例内核，每台装备都衔接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡（最年夜带宽约为50 GB/s），而且遵守DeepSeek-V3/R1预练习设置（每批次4096个Tokens，7168个暗藏层单位，前4个组，前8个专家（模子），应用FP8格局停止调理，应用BF16格局停止兼并）。在H800上测试低耽误内核，每台H800都衔接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡（最年夜带宽约为50 GB/s），遵守DeepSeek-V3/R1的典范出产情况设置（每批次128个Tokens，7168个暗藏层单位，前8个专家（模子），采取FP8格局停止调理，采取BF16格局停止兼并）。DeepEP运转情况请求：Hopper GPU（当前可能支撑更多架构或装备）Python 3.8及以上版本CUDA 12.3及以上PyTorch 2.1及以上版本NVLink用于外部节点通讯用于节点间通讯的RDMA收集

上一篇：宏碁表态GDC大会，宏碁优跃Pro片面接入DeepSeek

下一篇：没有了