Apple Silicon 嶄露頭角成為執行本地大語言模型的節能強者

BigGo Editorial Team

在 NVIDIA GPU 主導 AI 工作負載的格局中，Apple Silicon 晶片正在開闢一個作為節能替代方案的利基市場，用於本地執行大型語言模型。隨著開發者探索 MLX（Apple 為其定製矽最佳化的機器學習框架）的功能，使用者報告了令人印象深刻的效能指標，凸顯了這些系統在 AI 應用方面的潛力。

MLX 框架日益受到關注

MLX，Apple 專為 Apple Silicon 設計的機器學習框架，儘管只有一年多的歷史，但在開發者社群中已經穩步獲得關注。與 NumPy 和 PyTorch 類似，但專為 Apple Silicon 設計，MLX 為在 Mac 裝置上本地執行各種 AI 模型提供了基礎。該框架使使用者能夠執行 LLM（大型語言模型）、視覺模型，以及越來越多的音訊模型，而無需昂貴的專用 GPU 硬體。社群成員指出，圍繞 MLX 的生態系統活動令人印象深刻，像 mlx-lm 這樣的工具正在成為專為 Apple 架構構建的 llama.cpp 等效工具。

效能指標顯示出潛力

來自社群成員的效能報告凸顯了 Apple Silicon 在執行 LLM 方面的效率。一位使用者在 MacBook Pro M4 Max 上執行 4 位量化的 DeepSeek-R1-Distill-Llama-70B 模型時，報告稱在插電狀態下實現了每秒 10.2 個詞元，而在電池供電模式下達到每秒 4.2 個詞元。對於較小的 Gemma-3-27B-IT-QAT 模型，同一系統在插電狀態下達到每秒 26.37 個詞元，在省電模式下達到每秒 9.7 個詞元。這些指標表明，現代 Mac 可以以合理的效能執行大型 AI 模型，使以前只能在伺服器上執行的功能在消費級硬體上變得可行。

Apple Silicon 效能指標

模型	裝置	電源模式	效能
DeepSeek-R1-Distill-Llama-70B (4-bit)	MacBook Pro M4 Max	接通電源	10.2 tok/sec
DeepSeek-R1-Distill-Llama-70B (4-bit)	MacBook Pro M4 Max	電池/低功耗	4.2 tok/sec
Gemma-3-27B-IT-QAT (4-bit)	MacBook Pro M4 Max	接通電源	26.37 tok/sec
Gemma-3-27B-IT-QAT (4-bit)	MacBook Pro M4 Max	電池/低功耗	9.7 tok/sec

能效比較

硬體	OpenCL 基準分數	功耗
NVIDIA GeForce RTX 5090	376,224	400-550W (GPU) + 250-500W (系統)
Apple M3 Ultra	131,247	~200W (總系統)

能效比較

在比較 Apple Silicon 和 NVIDIA GPU 的能效時，社群討論表明，就每瓦效能而言，Apple 可能具有優勢。雖然 NVIDIA 的高階顯示卡（如 RTX 5090）實現了更高的原始效能（在 OpenCL 基準測試中得分為 376,224，而 M3 Ultra 為 131,247），但它們消耗的功率明顯更多——僅 GPU 就約為 400-550W，再加上額外的系統功率需求。相比之下，M3 Ultra 的總系統功率約為 200W，儘管絕對效能較低，但對於某些 AI 工作負載可能更加節能。

使用者體驗挑戰

儘管有效能優勢，但對於許多嘗試執行基於 MLX 的應用程式的使用者來說，Python 依賴管理仍然是一個重大痛點。多位評論者描述了在 Python 環境設定方面的挫折經歷，突顯了非 Python 開發者的一個常見入門障礙，他們只是想執行恰好用 Python 編寫的應用程式。一位使用者透過使用命令引數 -p 3.12 指定 Python 版本 3.12 後，體驗有所改善，這表明 MLX 可能只為特定 Python 版本提供二進位制輪子。

「Python 屬於那類如果不精通其中的細節就無法使用的東西。這很不幸，因為有很多非 Python 開發者希望執行恰好用 Python 編寫的程式。」

實際應用

使用者報告透過 MLX 成功地將各種模型用於不同任務。流行的模型包括 Mistral Small 3.1（需要約 20GB RAM）、用於故事生成和輕度編碼等一般任務的 Gemma3:12B、用於程式設計輔助的 Qwen2.5-coder:32B，以及令人驚訝地強大的微型 Qwen2.5:0.5B 模型。原文中強調的 tiny-llm 教程專案旨在幫助開發者理解高效提供 LLM 模型服務背後的技術，特別關注 Qwen2 模型，透過使用 MLX 的陣列/矩陣 API 從頭開始構建模型服務基礎設施。

隨著消費級硬體能力的不斷提升和像 MLX 這樣的框架的成熟，我們正在見證 AI 技術的民主化，這些技術以前僅限於專業資料中心。雖然在軟體依賴和開發工作流程方面仍然存在挑戰，但 Apple Silicon 正在成為 AI 愛好者和專業人士的一個引人注目的平臺，他們希望以合理的效能和出色的能效在本地運行復雜的模型。

參考：tiny-llm - LLM Serving in a Week