DeepSeek 的 FlashMLA 在 Hopper GPU 上實現90%記憶體頻寬效率

BigGo Editorial Team
DeepSeek 的 FlashMLA 在 Hopper GPU 上實現90%記憶體頻寬效率

在人工智慧模型服務效率方面取得重大進展,DeepSeek 開源了 FlashMLA,這是一個專門為 Hopper GPU 設計的最佳化 MLA(多頭線性注意力)解碼核心。在大型語言模型中,隨著 MLA 作為傳統注意力機制替代方案的興趣日益增長,此版本應運而生。

效能突破

FlashMLA 展示了令人印象深刻的效能指標,在 H800 SXM5 GPU 上,記憶體受限配置下可達到高達3000 GB/s的效能,在計算受限配置下可達到580 TFLOPS。這相當於約90%的記憶體頻寬效率和60%的計算效率,標誌著人工智慧模型服務的 GPU 利用率取得了實質性提升。

技術規格:

  • GPU 支援: Hopper GPU( H800 SXM5 )
  • 記憶體效能:最高 3000 GB/s
  • 計算效能:最高 580 TFLOPS
  • 精度支援: BF16
  • KV 快取:分頁式,塊大小為 64
  • CUDA 要求:12.3 及以上版本
  • PyTorch 要求:2.0 及以上版本

MLA 與傳統注意力機制的對比

最近的理論研究驗證了 MLA 相比傳統組查詢注意力(GQA)的優勢。根據社群討論,MLA 在保持相同 KV 快取開銷的同時提供了比 GQA 更強的表達能力。值得注意的是,現有的基於 GQA 的預訓練模型,包括流行的 LLaMA、Qwen 和 Mixtral,都可以轉換為基於 MLA 的模型。

實現和侷限性

目前,FlashMLA 支援 BF16 精度,並實現了塊大小為64的分頁 KV 快取。雖然該實現顯示出潛力,但一些社群成員指出了其平臺特定的侷限性:

「在我看來,FlashMLA 僅針對 Hopper GPU 的設計限制了其跨平臺使用,而且缺乏全面的文件、與更廣泛框架的相容性模糊,以及缺少基準比較或權衡分析,降低了其使用便利性和適應性。」

對人工智慧服務領域的影響

此版本釋出引發了關於其對現有人工智慧服務框架(如 vLLM 和 SGLang)潛在影響的討論。社群注意到 vLLM 已經為 DeepSeek 模型實現了 MLA 支援,報告顯示在生成吞吐量和令牌記憶體容量方面有顯著改進。這種競爭格局持續推動著人工智慧模型服務效率的創新。

未來影響

作為更大規模基礎設施釋出戰略的一部分,DeepSeek 計劃開源更多與基礎設施相關的程式碼庫。社群預計,這些釋出與 FlashMLA 的結合可能會顯著影響人工智慧模型服務最佳化的方向,特別是在解決大規模部署中記憶體頻寬和計算效率的挑戰方面。

參考:FlashMLA