Mira Murati 的 Thinking Machines 解決大型語言模型在生產系統中的非確定性問題

BigGo 社群部
Mira Murati 的 Thinking Machines 解決大型語言模型在生產系統中的非確定性問題

前 OpenAI 技術長 Mira Murati 的新公司 Thinking Machines 發表了一項研究,解決困擾大型語言模型部署的關鍵問題:生產系統中的非確定性行為。這家獲得20億美元融資的公司,正在解決影響現實世界人工智慧應用程式的問題,特別是在一致性至關重要的場景中。

Thinking Machines 公司背景:

  • 由前 OpenAI 技術長 Mira Murati 創立
  • 募得 20 億美元資金
  • 公司名稱參考 Danny Hillis 於 1980 年代創立的 Thinking Machines Corporation
  • 原始的 Thinking Machines 創造了 Connection Machine 超級電腦
  • 原公司於 1994 年破產後,商標變為可使用狀態

核心問題:批次層級的非確定性

研究顯示,大型語言模型的非確定性不僅僅關乎溫度設定或隨機採樣。即使將溫度設為零且輸入相同,模型仍可能根據處理過程中請求的批次組合方式產生不同的輸出。這是因為前向傳播缺乏批次不變性,意味著請求的輸出取決於同時處理的並行請求的批次大小和組成。

這項發現挑戰了關於大型語言模型確定性的常見假設。許多開發者認為只要控制隨機種子和溫度參數就能獲得一致的結果,但在處理生產規模的推理系統時,現實情況更為複雜。

已識別的關鍵技術挑戰:

  • 批次層級的非確定性會影響輸出,即使在 temperature=0 的情況下
  • 前向傳播在生產系統中缺乏「批次不變性」
  • 不同 GPU / TPU 版本間的硬體差異會導致變異
  • 編譯器最佳化可能會重新排序浮點運算
  • 多 GPU 推理系統增加了超越單節點設置的複雜性

對開發團隊的實際影響

非確定性行為為開發工作流程帶來重大挑戰。當相同輸入在不同執行中產生不同輸出時,開發者難以分享提示詞並有效協作。這使得為人工智慧驅動的應用程式建立可靠的單元測試或評估框架變得幾乎不可能。

問題不僅限於簡單的可重現性。在金融和法律服務等受監管行業中,非確定性行為可能使人工智慧系統無法使用,因為合規要求需要精確重建用戶互動。

技術解決方案與權衡

Thinking Machines 開發了客製化的 CUDA 核心來確保批次不變操作,讓模型無論批次組成如何都能產生相同的輸出。然而,這種方法伴隨著效能成本,且無法解決複雜人工智慧系統中所有形式的非確定性。

該解決方案在受控環境中運作良好,但在異質運算叢集中面臨限制,不同的硬體配置仍可能引入變異。正如一位社群成員指出,浮點運算並非總是可交換的,編譯器最佳化可能以不可預測的方式重新排序操作。

社群對必要性的辯論

這項研究引發了關於消除非確定性是否總是可取的辯論。有些人認為隨機性是自然語言處理的基本特徵,而非需要修復的錯誤。其他人指出,不同的語境自然應該產生不同的回應,強制相同的輸出實際上可能降低模型的實用性。

「自然語言是模糊的。它需要如此。我認為這裡試圖找出如何將圓形變成正方形,並論證為什麼圓形應該是正方形的做法是錯誤的。」

這場討論突顯了實際工程需求與語言模型作為機率系統的固有本質之間的張力,這些系統被設計來處理模糊性和語境相關的回應。

展望未來

雖然 Thinking Machines 的工作在理解大型語言模型行為方面代表重要進展,但也揭示了大規模建構可靠人工智慧系統的複雜性。研究證明,實現真正的確定性需要仔細關注運算堆疊的每個層級,從硬體差異到編譯器最佳化。

對於在生產環境中部署大型語言模型的組織而言,這項工作既提供了解決方案,也對未來的挑戰提出了清醒的見解。建構可靠人工智慧系統的道路不僅需要更好的模型,還需要在建構和營運支撐這些系統的基礎設施方面取得根本性進展。

參考資料:Defining NonDeterminism in LLM Inference