Google 最新的晶片創新標誌著該公司在人工智慧計算方法上的重大轉變,不僅關注 AI 訓練,更聚焦於日益增長的 AI 推理需求。這家科技巨頭已經認識到,隨著 AI 模型向推理能力發展,計算成本正在從開發階段轉向部署階段。
向推理計算的轉變
在 Google Cloud Next 25 活動上,Google 釋出了其第七代張量處理器(TPU)Ironwood。與之前主要定位於 AI 訓練工作負載的幾代產品不同,Ironwood 代表了一個戰略性轉向——專注於推理過程,即從已訓練的 AI 模型中根據使用者請求進行預測。這一轉變承認了人工智慧領域的經濟拐點,行業正從實驗性研究專案轉向企業對 AI 模型的實際、廣泛實施。
技術進步
Ironwood 相比其前代產品第六代 Trillium TPU 帶來了令人印象深刻的技術改進。Google 聲稱,新晶片實現了每瓦效能翻倍,提供每秒 29.3 萬億次浮點運算。記憶體容量已大幅增加至每晶片 192GB 高頻寬記憶體(HBM)——是 Trillium 的六倍。此外,記憶體頻寬提升了 4.5 倍,達到每秒 7.2 太位元,使晶片內部和系統之間的資料移動能力大大增強。
Ironwood TPU 規格與上一代(Trillium)對比
特性 | Ironwood(第7代) | Trillium(第6代) | 改進 |
---|---|---|---|
每瓦效能 | 29.3 TFLOPS | ~14.65 TFLOPS | 2倍 |
HBM 記憶體容量 | 每晶片192GB | 每晶片32GB | 6倍 |
記憶體頻寬 | 7.2 TBps | 1.6 TBps | 4.5倍 |
每晶片峰值計算能力 | 4,614 TFLOPs | 未指明 | - |
最大擴充套件規模 | 每pod 9,216晶片 | "數十萬" | - |
規模化後的總計算能力 | 42.5 exaflops | 未指明 | - |
擴充套件能力
也許最令人印象深刻的是 Ironwood 的擴充套件能力。這款 TPU 可以在每個叢集中擴充套件至 9,216 個晶片,提供驚人的 42.5 艾浮點計算能力。為了說明這一點,Google 指出,這比目前世界上最大的超級計算機 El Capitan 的計算能力高出 24 倍以上。這種巨大的擴充套件潛力進一步由 Google 的 DeepMind 設計的 Pathways 軟體棧增強,使開發者能夠利用成千上萬個協同工作的 Ironwood TPU。
經濟影響
Ironwood 的釋出時機尤為重要,因為 AI 基礎設施成本正在不斷攀升。華爾街分析師越來越關注與構建和部署 AI 系統相關的鉅額支出,特別是隨著 Google 的 Gemini 等模型向大幅增加計算需求的推理能力邁進。透過開發自己的高效能推理晶片,Google 可能能夠減少對 Nvidia、AMD 和 Intel 等供應商的依賴,潛在節省數十億基礎設施成本。
市場定位
雖然 Google 在過去十年中透過六代產品開發了 TPU,但將 Ironwood 明確定位為推理優先晶片代表了與過去方法的決裂。此前,Google 將 TPU 描述為前沿研究所必需的投資,而非來自成熟供應商晶片的替代品。在晶片世界中,推理市場被視為高容量市場,因為它必須滿足數千或數百萬客戶對訓練好的神經網路進行日常預測的需求。
軟體發展
除了硬體公告外,Google 還透露將透過 Cloud 上的 Pathways 向公眾提供其 Pathways 軟體。該軟體將 AI 計算工作負載分佈在不同計算機上,可能使客戶實現更高的 AI 資源效率和利用率。
AI 計算的未來
透過 Ironwood,Google 正將自己定位於其所認為的 AI 計算下一代前沿——從僅僅呈現資訊的響應式模型轉向能夠解釋和推理的主動系統。正如 Google 的機器學習、系統和雲 AI 副總裁/總經理 Amin Vahdat 所述,Ironwood 專為大規模支援思考、推理型 AI 模型而構建,標誌著 Google 對更復雜 AI 應用的願景,這些應用能夠透過複雜問題進行推理,而不僅僅是響應提示。