在一場吸引了超過百萬觀眾的備受期待的釋出會上,Elon Musk 的 xAI 釋出了他們最新的人工智慧模型 Grok-3 。雖然聲稱是地球上最智慧的AI,但其實際效能結果引發了關於人工智慧發展未來方向和海量計算投資收益遞減的重要討論。
釋出會與效能宣告
Grok-3 在 Chatbot Arena 排行榜上首次突破1400分大關,創造了重要里程碑。與當前主流模型相比,該模型在數學、科學推理和程式設計方面展現出優越的能力。Musk 的雄心勃勃的願景包括使用 Grok-3 進行 SpaceX 火星任務計算,並預測在三年內將實現諾貝爾獎級別的突破。
效能指標:
- Chatbot Arena 得分:1402分(首個突破1400分)
- 相比競爭對手的效能提升:1-2%
- 開發時間線:第一批10萬個GPU用時122天,第二批用時92天
![]() |
---|
Grok-3 旨在協助 SpaceX 火星任務的計算工作,圖表顯示了其在太空旅行中的潛在應用 |
海量計算投資
Grok-3 的開發需要前所未有的計算資源,使用了200,000個 NVIDIA H100 GPU。與僅使用2,000個 H800 GPU 執行兩個月的 DeepSeek V3 相比,計算能力增加了263倍。為支援這一龐大基礎設施,xAI 與 Dell 簽訂了50億美元的協議,購買配備 NVIDIA GB200 晶片的AI最佳化伺服器。
計算資源對比:
- Grok-3:200,000個 NVIDIA H100 GPU
- DeepSeek V3:2,000個 H800 GPU
- 訓練算力比例:263:1
效能現實檢驗
儘管投入了巨大的計算資源,Grok-3 的效能優勢似乎並不顯著。早期測試顯示,該模型在處理基礎推理任務時仍有困難,例如在沒有上下文的情況下比較數字(9.11對9.9),以及基本物理問題。在基準測試中,相比 DeepSeek R1 和 GPT-4 等競爭對手,實際效能提升僅為1-2%。
行業影響
Grok-3 的釋出凸顯了人工智慧發展的關鍵轉折點。前 OpenAI 首席科學家 Ilya Sutskever 關於我們所知的預訓練時代即將結束的預測似乎越來越貼近現實。該行業面臨著優質訓練資料耗盡和海量計算投資收益遞減的挑戰,這表明需要新的方法來實現真正的通用人工智慧(AGI)。
基礎設施投資:
- Dell 協議價值:50億美元
- 硬體:配備 NVIDIA GB200 晶片的伺服器
- 部署時間表:貫穿2025年全年
![]() |
---|
閉源和開源軟體之間的爭論反映了在 Grok-3 釋出所突顯的 AI 領域發展中對創新方法的需求 |
訪問與可用性
xAI 首先向 X Premium Plus 訂閱使用者開放 Grok-3 的使用許可權,並計劃推出獨立的 Super Grok 訂閱服務。該公司還承諾在最新版本完全成熟後開源之前版本的 Grok 模型,展示了商業利益與社群貢獻之間的平衡。