IBM 最新的 NorthPole 處理器在聲稱相較於傳統 GPU 有顯著效能提升後,在科技社群中引發了激烈討論。這款晶片代表了從沿用數十年的 von Neumann 架構的根本性轉變,該架構將記憶體和運算單元分離,而新晶片則將它們直接整合在一起。
社群反應顯示出對這些聲明既興奮又懷疑的態度。雖然 IBM 報告了令人印象深刻的基準測試結果,但經驗豐富的開發者質疑這是否代表真正的創新,還是只是現有方法的另一次迭代。
![]() |
|---|
| von Neumann 瓶頸的風格化呈現,展示數據流和處理限制 |
基準測試聲明面臨現實檢驗
IBM 的效能數據確實引人注目。在使用 30 億參數語言模型的測試中,NorthPole 展現了比最節能 GPU 快 47 倍的效能,以及比最低延遲 GPU 高出 73 倍的能源效率。然而,社群成員正在深入探討這些數字在實際應用中的真正意義。
討論顯示 IBM 已經在這項技術上投入超過十年的時間,這讓一些人懷疑該公司是否希望其他公司實施類似的方法,然後為 IBM 的專利支付授權費。這個漫長的開發時程也引發了為什麼如此顯著的改進直到現在才被宣布的疑問。
NorthPole 效能聲明:
- 比最節能的 GPU 快 47 倍
- 比最低延遲 GPU 節能 73 倍
- 在 30 億參數大型語言模型( IBM Granite-8B-Code-Base 模型)上進行測試
- 開發時程:超過 10 年
架構之爭:von Neumann 對比記憶體內運算
技術社群特別熱衷於討論基礎架構的變化。傳統的 von Neumann 設計將處理器和記憶體分離,這創造了專家所稱的瓶頸——處理器經常閒置等待資料在記憶體之間來回傳輸。
「對於通用運算來說,真的沒有什麼比 von Neumann 架構更強大的了。」
這個瓶頸對於 AI 工作負載來說特別成問題,因為大量的模型權重需要在記憶體和處理器之間不斷移動。IBM 的方法將運算直接移入記憶體中,消除了大部分的資料移動。
Von Neumann 瓶頸對 AI 的影響:
- 資料傳輸能耗:約佔 AI 工作負載能耗的90%
- 實際運算能耗:約佔 AI 工作負載能耗的10%
- 根本原因:模型權重在獨立的記憶體和運算單元之間持續來回傳輸
競爭環境比較
社群討論顯示 IBM 的 NorthPole 並非獨立運作。類似的方法正被 Groq 的 LPU 晶片、Tenstorrent 的硬體設計,以及 AMD 的 NPU 架構等公司所採用。每家公司都從略有不同的角度來解決記憶體瓶頸問題。
Cerebras 採用了極端的方法,在其 WSE-3 晶片中整合了 44GB 的晶片內記憶體。同時,Groq 專注於讓記憶體變得極快,而不是將運算移入記憶體本身。社群辯論的焦點在於哪種方法在實際應用中會被證明最有效。
競爭對手的 AI 晶片架構:
- IBM NorthPole:具備類比儲存功能的記憶體內運算
- Groq LPU:超高速記憶體(每秒 80 TB)搭配傳統運算/記憶體分離架構
- Cerebras WSE-3:44GB 晶片內 SRAM
- Tenstorrent:以具競爭力的價格提供高 SRAM 容量
- AMD NPU:客製化神經處理單元
![]() |
|---|
| 行業專家討論克服運算記憶體瓶頸的創新方法 |
類比記憶體復興引發興奮
引發真正熱情的一個方面是 IBM 使用類比記憶體來儲存模型權重。這代表了對類比運算概念的迷人回歸,這些概念在數十年前為了數位精確度而被大幅放棄。
社群欣賞這種方法的優雅——由於 AI 模型權重不需要完美的精確度,類比儲存可以提供巨大的效率提升,同時增加有益的雜訊,這實際上可能改善模型效能。這種不精確性,而非缺點,可以像內建的溫度變化一樣運作,有助於防止過度擬合。
![]() |
|---|
| IBM 部落格討論馮紐曼架構對 AI 運算的限制 |
市場現實對比技術創新
儘管有令人印象深刻的技術成就,社群情緒建議對立即的實際影響保持謹慎。這些改進雖然在實驗室條件下很顯著,但在實際場景中部署時,可能代表的是漸進式進步而非革命性突破。
更廣泛的討論反映了業界在 AI 運算成本和能源消耗方面持續面臨的挑戰。雖然像 NorthPole 這樣的新架構提供了有前景的方向,但社群認識到實際採用將取決於原始效能數字以外的因素,包括軟體相容性、製造成本和生態系統支援。
參考資料:Why a decades old architecture decision is impeding the power of AI computing



