在一次令人驚訝的企業透明度展示中,Nvidia 針對其下一代 Blackwell AI 晶片的生產問題做出回應,CEO Jensen Huang 對影響早期生產良率的設計缺陷承擔全部責任。
設計缺陷及其影響
這個技術問題源於一個複雜的整合挑戰,涉及七種需要同時設計和製造的不同型別晶片。雖然這些晶片在功能上是完善的,但設計缺陷特別影響了生產良率,可能會威脅到 Nvidia 迄今為止最具雄心的 AI 晶片平臺的及時釋出。
關於此情況的要點:
- 問題於2024年8月被發現
- 缺陷影響了晶片的封裝技術
- 初期生產良率低於預期
- TSMC 對這些問題並不負責
TSMC 在問題恢復中的作用
與早前媒體將問題歸咎於 TSMC 的 CoWoS 封裝技術的猜測相反,Huang 澄清 TSMC 實際上在解決問題中發揮了關鍵作用。這家臺灣製造商幫助 Nvidia 克服了良率困難,並以 Huang 所說的令人難以置信的速度將生產恢復到正常水平。
技術細節和效能預期
Blackwell 架構在 AI 計算領域代表著重大突破:
- 具有透過10TB/秒晶片間鏈路連線的兩個 GPU 晶片
- 採用 TSMC 先進的 CoWoS-L 封裝技術
- 相比 Grace Hopper 提供高達30倍的 AI 推理速度
- 預計將減少高達25倍的成本和能源消耗
當前狀態和展望
隨著生產重回正軌,Nvidia 正按計劃推進2024年第四季度的出貨計劃。公司維持其 Blackwell 將成為 Nvidia 歷史上最成功產品的立場,表明這次暫時的挫折並未影響該平臺的市場影響力預期。