Apple Silicon 嶄露頭角成為執行本地大語言模型的節能強者

BigGo Editorial Team
Apple Silicon 嶄露頭角成為執行本地大語言模型的節能強者

在 NVIDIA GPU 主導 AI 工作負載的格局中,Apple Silicon 晶片正在開闢一個作為節能替代方案的利基市場,用於本地執行大型語言模型。隨著開發者探索 MLX(Apple 為其定製矽最佳化的機器學習框架)的功能,使用者報告了令人印象深刻的效能指標,凸顯了這些系統在 AI 應用方面的潛力。

MLX 框架日益受到關注

MLX,Apple 專為 Apple Silicon 設計的機器學習框架,儘管只有一年多的歷史,但在開發者社群中已經穩步獲得關注。與 NumPy 和 PyTorch 類似,但專為 Apple Silicon 設計,MLX 為在 Mac 裝置上本地執行各種 AI 模型提供了基礎。該框架使使用者能夠執行 LLM(大型語言模型)、視覺模型,以及越來越多的音訊模型,而無需昂貴的專用 GPU 硬體。社群成員指出,圍繞 MLX 的生態系統活動令人印象深刻,像 mlx-lm 這樣的工具正在成為專為 Apple 架構構建的 llama.cpp 等效工具。

效能指標顯示出潛力

來自社群成員的效能報告凸顯了 Apple Silicon 在執行 LLM 方面的效率。一位使用者在 MacBook Pro M4 Max 上執行 4 位量化的 DeepSeek-R1-Distill-Llama-70B 模型時,報告稱在插電狀態下實現了每秒 10.2 個詞元,而在電池供電模式下達到每秒 4.2 個詞元。對於較小的 Gemma-3-27B-IT-QAT 模型,同一系統在插電狀態下達到每秒 26.37 個詞元,在省電模式下達到每秒 9.7 個詞元。這些指標表明,現代 Mac 可以以合理的效能執行大型 AI 模型,使以前只能在伺服器上執行的功能在消費級硬體上變得可行。

Apple Silicon 效能指標

模型 裝置 電源模式 效能
DeepSeek-R1-Distill-Llama-70B (4-bit) MacBook Pro M4 Max 接通電源 10.2 tok/sec
DeepSeek-R1-Distill-Llama-70B (4-bit) MacBook Pro M4 Max 電池/低功耗 4.2 tok/sec
Gemma-3-27B-IT-QAT (4-bit) MacBook Pro M4 Max 接通電源 26.37 tok/sec
Gemma-3-27B-IT-QAT (4-bit) MacBook Pro M4 Max 電池/低功耗 9.7 tok/sec

能效比較

硬體 OpenCL 基準分數 功耗
NVIDIA GeForce RTX 5090 376,224 400-550W (GPU) + 250-500W (系統)
Apple M3 Ultra 131,247 ~200W (總系統)

能效比較

在比較 Apple Silicon 和 NVIDIA GPU 的能效時,社群討論表明,就每瓦效能而言,Apple 可能具有優勢。雖然 NVIDIA 的高階顯示卡(如 RTX 5090)實現了更高的原始效能(在 OpenCL 基準測試中得分為 376,224,而 M3 Ultra 為 131,247),但它們消耗的功率明顯更多——僅 GPU 就約為 400-550W,再加上額外的系統功率需求。相比之下,M3 Ultra 的總系統功率約為 200W,儘管絕對效能較低,但對於某些 AI 工作負載可能更加節能。

使用者體驗挑戰

儘管有效能優勢,但對於許多嘗試執行基於 MLX 的應用程式的使用者來說,Python 依賴管理仍然是一個重大痛點。多位評論者描述了在 Python 環境設定方面的挫折經歷,突顯了非 Python 開發者的一個常見入門障礙,他們只是想執行恰好用 Python 編寫的應用程式。一位使用者透過使用命令引數 -p 3.12 指定 Python 版本 3.12 後,體驗有所改善,這表明 MLX 可能只為特定 Python 版本提供二進位制輪子。

「Python 屬於那類如果不精通其中的細節就無法使用的東西。這很不幸,因為有很多非 Python 開發者希望執行恰好用 Python 編寫的程式。」

實際應用

使用者報告透過 MLX 成功地將各種模型用於不同任務。流行的模型包括 Mistral Small 3.1(需要約 20GB RAM)、用於故事生成和輕度編碼等一般任務的 Gemma3:12B、用於程式設計輔助的 Qwen2.5-coder:32B,以及令人驚訝地強大的微型 Qwen2.5:0.5B 模型。原文中強調的 tiny-llm 教程專案旨在幫助開發者理解高效提供 LLM 模型服務背後的技術,特別關注 Qwen2 模型,透過使用 MLX 的陣列/矩陣 API 從頭開始構建模型服務基礎設施。

隨著消費級硬體能力的不斷提升和像 MLX 這樣的框架的成熟,我們正在見證 AI 技術的民主化,這些技術以前僅限於專業資料中心。雖然在軟體依賴和開發工作流程方面仍然存在挑戰,但 Apple Silicon 正在成為 AI 愛好者和專業人士的一個引人注目的平臺,他們希望以合理的效能和出色的能效在本地運行復雜的模型。

參考:tiny-llm - LLM Serving in a Week