DeepSeek 釋出了他們的 Fire-Flyer 檔案系統(3FS),這是一個專為 AI 訓練和推理工作負載設計的高效能分散式檔案系統。該系統自 2019 年開始開發,最初為高頻交易應用建立,現已針對大規模 AI 訓練的獨特資料訪問模式進行了最佳化。
隨機讀取工作負載的卓越效能
3FS 實現了令人矚目的效能,基準測試顯示在由 180 個儲存節點組成的叢集中,讀取吞吐量約為 6.6 TiB/s。這一效能水平顯著超過了傳統分散式檔案系統,如 Ceph,後者最近才慶祝達到 1 TiB/s 的里程碑。該系統專為 AI 訓練工作負載中常見的隨機讀取模式而設計,在這種情況下傳統的快取機制幾乎沒有益處。
「對於那些感興趣的人,設計最初發布在這裡...這個檔案系統已經被他們開發和使用了幾年。與傳統檔案系統相比,它更專注於包含大量隨機讀取的模型訓練。在這種情況下,讀快取和預取是沒有用的。」
3FS 的獨特之處在於它有意省略了讀取快取和預取功能——這些功能是傳統檔案系統的主要特性,但對於資料在短期內很少重用的 AI 訓練工作負載沒有優勢。相反,3FS 使用基於 Linux 的 AIO 和 io_uring 介面與直接 I/O 模式,完全繞過檔案快取,防止不必要的記憶體消耗。
![]() |
---|
展示 Fire-Flyer 檔案系統卓越隨機讀取能力的效能指標 |
架構和技術實現
該系統採用分離架構,結合了數千個 SSD 的吞吐量和數百個儲存節點的網路頻寬。它實現了具有分配查詢的鏈式複製(CRAQ)以保證強一致性,並使用由事務性鍵值儲存支援的無狀態元資料服務。
雖然 3FS 使用 FUSE 進行元資料管理,但要實現高效能,應用程式需要直接連結到 C++ 客戶端庫進行讀寫操作。這一設計選擇在社群中引發了一些討論,質疑這是否限制了其通用實用性,不過 Python 繫結的提供提高了其可訪問性。
實現 6.6 TiB/s 吞吐量的基準測試叢集由 180 個儲存節點組成,每個節點配備 2x200Gbps InfiniBand 網絡卡和十六個 14TiB NVMe SSD,並有約 500 多個客戶端節點用於讀取壓力測試。這種配置展示了系統在大型叢集中有效擴充套件的能力。
3FS 效能亮點:
- 峰值吞吐量: 跨180個儲存節點的6.6 TiB/s讀取吞吐量
- 節點配置: 每個儲存節點配備2x200Gbps InfiniBand 網絡卡和十六個14TiB NVMe 固態硬碟
- GraySort 效能: 在30分14秒內排序了110.5 TiB的資料(3.66 TiB/分鐘)
- KVCache 效能: 峰值讀取吞吐量高達40 GiB/s
與 Ceph 的比較:
- 3FS:180個節點,2x200Gbps InfiniBand,每節點16個14TiB NVMe 固態硬碟,約500個客戶端,6.6 TiB/s讀取吞吐量
- Ceph:68個節點,2x100Gbps Mellanox,每節點10個14TiB NVMe 固態硬碟,504個客戶端,1 TiB/s隨機讀取吞吐量
![]() |
---|
伺服器吞吐量指標,展示了 3FS 中分解架構的有效擴充套件和效能 |
在競爭對手中的定位
社群討論強調,3FS 進入了一個由 Lustre 等成熟解決方案和 Weka 等較新選擇主導的高效能分散式儲存領域。傳統物件儲存系統如 MinIO、Ceph 和 SeaweedFS 通常被認為對於大規模 AI 訓練的極端吞吐量需求來說太慢。
Lustre 仍然是分散式並行檔案系統的大佬,但眾所周知其設定和操作非常困難。3FS 旨在提供相當或更好的效能,同時採用更現代、更易管理的架構。該系統的 6.6 TiB/s 吞吐量顯著超過了 Ceph 最近慶祝的 1 TiB/s 里程碑,而且 Ceph 是在較小的 68 節點叢集上實現的。
超越訓練:用於推理的 KVCache
除了訓練資料訪問外,3FS 還提供 KVCache 功能,透過快取解碼器層中先前標記的鍵和值向量來最佳化 LLM 推理。此功能有助於避免推理過程中的冗餘計算,基準測試結果顯示峰值讀取吞吐量可達 40 GiB/s。
這一功能似乎是 DeepSeek 成本效益高的推理服務策略的一部分,可能解釋了他們如何能夠在提示快取命中時提供有競爭力的價格。
3FS 的釋出豐富了 DeepSeek 日益增長的基礎設施工具組合,繼他們最近釋出 AI 技術棧的其他元件之後。正如一位評論者所指出的,該公司在高頻交易領域的背景(在那裡效能以納秒而非毫秒計量)可能影響了他們構建高效能 AI 基礎設施的方法。
對於那些正在為現有解決方案(如 AWS EFS)的高成本和效能限制而苦惱的組織來說,3FS 可能代表了一個有前途的替代方案,儘管其專業性質意味著它更適合特定的 AI 工作負載,而非通用儲存需求。