DeepSeek代码开源第二弹:DeepEP通讯库,优化GPU通讯
作者:[db:作者] 发布时间:2025-02-27 08:31
【TechWeb】2月25日新闻,继昨天开源Flash MLA后,DeepSeek本日向大众开源了DeepEP——第一个用于MoE模子练习跟推理的开源EP通讯库。据先容,DeepEP是一个用于MoE(混杂专家)模子练习跟推理的EP(Expert Parallelism)通讯库,它为全部GPU内核供给高吞吐量跟低耽误,也称为MoE调理跟组合。该库还支撑低精度操纵,包含FP8。同时,DeepEP针对NVLink(NVLink是英伟达开辟的高速互联技巧,重要用于GPU之间的通讯,晋升带宽跟下降耽误)到RDMA(近程直接内存拜访,一种收集数据传输技巧‌,用于跨节点高效通讯)的非对称带宽转发场景停止了深度优化,不只供给了高吞吐量,还支撑SM(Streaming Multiprocessors)数目把持,统筹练习跟推理义务的高吞吐量表示。对对耽误敏感的推懂得码,DeepEP包括一组低耽误内核跟纯RDMA,以最年夜限制地增加耽误。该库还引入了一种基于钩子的通讯盘算堆叠方式,该方式不占用任何SM资本。DeepSeek称,DeepEP的实现可能与DeepSeek-V3论文略有差别。DeepSeek还列出了DeepEP的现实机能:在H800(NVLink的最年夜带宽约为160 GB/s)上测试惯例内核,每台装备都衔接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最年夜带宽约为50 GB/s),而且遵守DeepSeek-V3/R1预练习设置(每批次4096个Tokens,7168个暗藏层单位,前4个组,前8个专家(模子),应用FP8格局停止调理,应用BF16格局停止兼并)。在H800上测试低耽误内核,每台H800都衔接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最年夜带宽约为50 GB/s),遵守DeepSeek-V3/R1的典范出产情况设置(每批次128个Tokens,7168个暗藏层单位,前8个专家(模子),采取FP8格局停止调理,采取BF16格局停止兼并)。DeepEP运转情况请求:Hopper GPU(当前可能支撑更多架构或装备)Python 3.8及以上版本CUDA 12.3及以上PyTorch 2.1及以上版本NVLink用于外部节点通讯用于节点间通讯的RDMA收集
电话
020-66888888