隨著大語言模型規模和複雜性的不斷增長,管理推理成本和記憶體訪問效率的挑戰變得越來越關鍵。ByteDance 旗下抖音團隊開發出了一項突破性解決方案,可能徹底改變我們處理人工智慧模型架構這些挑戰的方式。
稀疏模型架構的新方法
UltraMem 是 ByteDance 在人工智慧架構領域的最新創新,它在解決當前混合專家系統(MoE)記憶體訪問限制方面取得了重大突破。該架構已獲接受將在 ICLR 2025 會議上展示,標誌著其受到學術界的認可。該系統在效能和效率方面都表現出顯著改進,與傳統 MoE 架構相比,推理速度提高了2-6倍,同時推理成本降低了高達83%。
效能改進:
- 推理速度:比 MoE 快2-6倍
- 成本降低:推理成本最高降低83%
- 測試模型規模:1.51億、6.8億、16億引數
技術創新
該架構在現有系統基礎上引入了三個關鍵改進。首先,它在 Transformer 層中分佈實現了多個小型記憶體層,取代了傳統 PKM(乘積鍵值記憶體)設計中的單一大型記憶體層。其次,它採用了一種更復雜的值檢索方法,稱為 Tucker 分解查詢-鍵值檢索(TDQKR),提高了值評分的複雜性和有效性。最後,它引入了隱式值擴充套件(IVE),允許在不按比例增加物理記憶體需求的情況下進行虛擬記憶體擴充套件。
主要技術特點:
- 多重分散式記憶體層
- Tucker 分解查詢-鍵值檢索(TDQKR)
- 隱式值擴充套件(IVE)
- 支援高達2000萬個數值
效能和可擴充套件性
在從1.51億到16億引數範圍的模型廣泛測試中,UltraMem 相比 MoE 和 PKM 架構都表現出優越的效能。特別令人印象深刻的是,即使在稀疏引數增加的情況下,它也能保持穩定的推理時間——這與通常隨引數增長而明顯變慢的 MoE 模型相比是一個顯著優勢。該架構已成功測試了包含多達2000萬個值的模型,為潛在擴充套件到數十億個值或專家鋪平了道路。
實際意義
對人工智慧行業而言,UltraMem 的成就代表著讓大語言模型更適合實際應用的重要進步。推理成本的大幅降低和改進的記憶體效率,可能使先進的人工智慧模型對更廣泛的應用和組織來說更容易獲取和更具經濟可行性。這一發展恰逢其時,因為當前業界正在努力應對日益複雜的人工智慧模型帶來的計算需求增長。
![]() |
---|
從展示的效能資料可以看出, UltraMem 的技術突破可以使大型語言模型在各種應用場景中變得經濟實惠。 |