DeepSeek 新推出的 MoE 通訊庫推動開源人工智慧發展向前邁進

BigGo Editorial Team
DeepSeek 新推出的 MoE 通訊庫推動開源人工智慧發展向前邁進

對於人工智慧開發社群來說,DeepSeek 釋出 DeepEP 是一個重要舉措,這是一個為混合專家模型(Mixture-of-Experts,MoE)設計的高效專家並行通訊庫。該釋出在開發者和研究人員中引起了相當大的興奮,特別是因為其開源性質和先進的最佳化技術。

先進的通訊架構

DeepEP 引入了複雜的全對全 GPU 通訊核心,透過 NVLink 和 RDMA 技術支援節點內和節點間操作。該庫實現了令人印象深刻的效能指標,節點內操作透過 NVLink 可達到高達 158 GB/s 的頻寬,而節點間通訊透過 RDMA 保持約 40-46 GB/s 的穩定效能。

技術說明:RDMA(遠端直接記憶體訪問)允許一臺計算機直接訪問另一臺計算機的記憶體,無需涉及任何作業系統,從而實現高吞吐量、低延遲的網路通訊。

效能亮點:

  • 節點內通訊( NVLink ):頻寬高達158 GB/s
  • 節點間通訊( RDMA ):頻寬39-46 GB/s
  • 低延遲操作:分發操作163-194微秒,組合操作318-369微秒
  • 可高效擴充套件,支援8到256個專家模型

系統要求:

  • Hopper GPU
  • Python 3.8+
  • CUDA 12.3+
  • PyTorch 2.1+
  • 節點內通訊需要 NVLink
  • 節點間通訊需要 RDMA 網路

創新的 PTX 最佳化

此次釋出最受討論的方面之一是其使用的先進 PTX 指令。該庫實現了一種特殊的文件外行為 PTX 指令(ld.global.nc1::no_allocate.L2::256B),雖然技術上屬於未定義行為,但已在 Hopper 架構上經過了徹底的正確性測試。這一最佳化引起了技術社群的特別關注,開發者注意到其對效能的潛在影響。

「我感覺像是在糖果店裡的小孩子。這些技巧如果僅基於論文去逆向工程,將會花費太長時間才能正確實現。」

社群影響和開源理念

該釋出引發了關於開源人工智慧開發狀態的討論,許多社群成員對 DeepSeek 的方法與其他人工智慧公司的方法進行了有利比較。全面的文件,包括詳細的效能指標和實現示例,展示了對透明和協作開發的承諾,這與開發者社群產生了強烈共鳴。

該庫的釋出代表了民主化先進人工智慧技術的重要一步,可能使更多研究人員和開發者能夠有效地使用 MoE 模型。憑藉對 FP8 操作的支援和靈活的 GPU 資源控制,DeepEP 為未來人工智慧模型的開發和最佳化提供了堅實的基礎。

參考:DeepEP: an efficient expert-parallel communication library