AMD 透過推出 AMD-135M 首次進軍小型語言模型領域,展示了該公司在人工智慧領域日益增長的雄心。這個新模型旨在為企業提供高效的人工智慧能力,同時充分利用 AMD 的硬體優勢。
AMD-135M 的主要亮點:
- 兩種變體:通用型 AMD-Llama-135M 和針對編碼任務最佳化的 AMD-Llama-135M-code
- 訓練過程:
- 基礎模型在 6 天內訓練了 6700 億個標記
- 程式碼變體在 4 天內額外微調了 200 億個標記
- 使用四個 8 路 AMD Instinct MI250 節點進行訓練
- 推測解碼:採用較小的草稿模型同時生成多個候選標記,由較大的目標模型進行驗證
- 效能宣告:AMD 報告稱,與不使用推測解碼的推理相比,在其硬體上實現了顯著的加速
AMD-135M 的推出表明該公司有意在人工智慧模型領域展開競爭,可能會挑戰 NVIDIA 的主導地位。透過專注於小型語言模型,AMD 瞄準了一個可能對需要本地部署、計算需求較低的人工智慧解決方案的企業特別有價值的市場。
AMD 開源 AMD-135M 的訓練程式碼、資料集和權重的做法可能會促進人工智慧社群的協作和創新。這一舉措與人工智慧開發日益開放和透明的趨勢相一致。
雖然效能宣告令人鼓舞,但值得注意的是,這些基準測試是由 AMD 自己進行的。獨立測試對於在不同場景和硬體配置下驗證這些結果至關重要。
隨著 AMD 繼續發展其人工智慧產品組合,包括硬體和軟體產品,科技行業將密切關注這將如何影響競爭格局並推動人工智慧技術的創新。