DeepSeek R1 僅花費550萬美元訓練成本就達到 OpenAI o1 的效能水平

BigGo Editorial Team
DeepSeek R1 僅花費550萬美元訓練成本就達到 OpenAI o1 的效能水平

在一項震驚人工智慧行業的突破性進展中,中國人工智慧初創公司 DeepSeek 實現了許多人認為不可能的事情——以僅佔用極少資源的情況下,建立了一個能夠與 OpenAI o1 效能相媲美的大型語言模型。這一技術突破挑戰了計算資源與人工智慧模型能力之間關係的傳統認知。

革命性的成本效益突破

DeepSeek 的 R1 模型僅使用2,048塊 NVIDIA H800 GPU 進行訓練,總訓練成本約為557.6萬美元。與傳統上需要數百億美元投資的訓練方法相比,這代表著顯著的成本降低。該模型在數學、程式設計和自然語言推理等各種任務中展現出與 OpenAI o1 相當的效能。

訓練規格:

  • GPU配置:2,048塊 NVIDIA H800 GPU
  • 總訓練成本:557.6萬美元
  • 訓練時長:使用2,048塊GPU需要54天,或使用10,000塊GPU需要11天
Elon Musk 對 DeepSeek 的 R1 模型的出色表現進行了思考,標誌著人工智慧效率發展的新時代
Elon Musk 對 DeepSeek 的 R1 模型的出色表現進行了思考,標誌著人工智慧效率發展的新時代

R1 背後的技術創新

R1 的成功源於 DeepSeek 在模型訓練方面的創新方法。團隊為 R1-Zero 開發了一種純強化學習策略,無需任何監督訓練,隨後演變成完整的 R1 模型。訓練過程分為四個關鍵階段:冷啟動、面向推理的強化學習、帶有監督微調的拒絕取樣,以及覆蓋所有場景的綜合強化學習。

用於 DeepSeek R1 模型的先進 AI 晶片體現了其開發背後的創新技術
用於 DeepSeek R1 模型的先進 AI 晶片體現了其開發背後的創新技術

系統級最佳化

DeepSeek 透過多重最佳化策略實現了顯著的效率提升。團隊為其 MoE(專家混合)架構實施了無輔助損失的負載均衡策略,包含一個共享專家和256個路由專家。他們還開發了用於通訊最佳化的 DualPipe 演算法,並採用了複雜的記憶體管理技術來最大化 GPU 利用率。

模型架構:

  • 總引數量:671B
  • 每個令牌的活躍引數:37B(佔總量的5.5%)
  • 架構:61層 Transformer
  • MoE 配置:1個共享專家 + 256個路由專家
  • 令牌啟用:每個令牌8個路由專家
NVIDIA 技術在 DeepSeek R1 模型的系統級最佳化中發揮著關鍵作用
NVIDIA 技術在 DeepSeek R1 模型的系統級最佳化中發揮著關鍵作用

行業影響與反響

這一成就獲得了行業領袖的廣泛關注。Microsoft 執行長 Satya Nadella 在達沃斯世界經濟論壇上認可了 DeepSeek 開源模型的卓越效率。這一發展也影響了 NVIDIA 的市場價值,引發了關於人工智慧硬體需求和訓練方法未來發展的討論。

未來影響

DeepSeek 的突破錶明人工智慧發展可能出現正規化轉移,證明透過演算法創新而不是僅僅依賴龐大的計算資源就能實現重大進展。這可能使人工智慧開發更加民主化,讓資源有限的組織也能參與其中,潛在地加快該領域的創新步伐。

並行訓練策略:

  • 16路流水線並行
  • 64路專家並行
  • 跨越8個物理節點
  • 基於 ZeRO-1 的資料並行

開源貢獻

與 OpenAI o1 的封閉方式不同,DeepSeek 選擇開源其模型,允許全球研究人員研究和基於其工作進行創新。這一決定受到人工智慧社群的廣泛讚譽,可能加速人工智慧技術的集體進步。