一項關於時間序列基礎模型的最新基準研究在科技界引發了激烈爭論,質疑這些 AI 系統是否真正兌現了它們的承諾。該研究使用真實生產資料測試了來自 Amazon 、 Google 、 IBM 和 Datadog 的主要模型,揭示了令人驚訝的優勢和令人擔憂的侷限性。
基礎模型宣告受到質疑
時間序列基礎模型的核心前提很有吸引力:一個無需重新訓練就能預測任何型別資料的單一 AI 系統。 Amazon 、 Google 和 IBM 等公司將這些模型定位為時間序列資料的 ChatGPT ——能夠跨不同領域和資料集工作的通用工具。
然而,社群專家質疑這種比較是否站得住腳。根本問題在於什麼才能使模型真正具有基礎性。雖然語言模型可以執行超出其訓練目標的多樣化任務,但時間序列模型主要在其核心預測任務上表現出色。這種區別使一些人認為,稱這些系統為基礎模型可能是誤導性的營銷,而非準確的技術分類。
基準測試結果引發質疑
該研究在 Kubernetes 生產資料上測試了模型,測量了 CPU 使用率、記憶體消耗和請求延遲。 Datadog 的 Toto 模型成為表現最佳的模型,這立即引起了評審者的警覺。批評者指出,主要在基礎設施監控資料上進行測試—— Datadog 的專長領域——創造了固有偏見,扭曲了結果。
「這總結了問題所在,難怪 Datadog 的 toto 模型表現異常出色。如果他們選擇了異構混合資料集,結果會更有用。」
有限的資料集範圍代表了評估中的一個重大弱點。真正全面的基準測試應該包括金融預測、人口普查資料、臨床試驗或零售銷售等多樣化領域——而不僅僅是一種型別的基礎設施指標。
模型對比總結
模型 | 釋出商 | 引數量 | 單變數 | 多變數 |
---|---|---|---|---|
Amazon Forecast | AWS | ~10M | ✓ | ✓ |
Google TimesFM | ~10M | ✓ | ||
IBM Tiny Time Mixers | IBM | ~100K | ✓ | |
Datadog Toto | Datadog | ~5M | ✓ |
![]() |
---|
該圖片對比了經典計算與量子計算正規化,象徵著圍繞傳統和現代預測模型有效性的討論 |
方法論擔憂加劇
除了資料集限制之外,研究方法本身也受到了尖銳批評。選擇 MAPE (平均絕對百分比誤差)作為主要評估指標尤其引起爭議。 MAPE 已知存在重大缺陷,包括偏向於低估預測和零值問題。
資料預處理步驟也引起了擔憂。前向填充缺失值和其他插補技術可能人為地改善了模型效能,但這種方式並不反映真實世界的條件。此外,該研究聲稱優於經典模型,但未能在結果比較中包含任何傳統預測方法。
社群提出的關鍵評估擔憂
- 資料集偏差:測試主要基於基礎設施監控資料,這有利於 Datadog 的專業化模型
- 指標問題: MAPE 存在已知缺陷,包括預測不足偏差和零值問題
- 缺失基準:效能比較中未包含經典預測方法
- 範圍有限:單一領域測試無法驗證"基礎模型"的宣告
- 預處理偽影:前向填充和插補可能人為改善結果
經典模型仍具競爭力
儘管基礎模型備受炒作,傳統預測方法仍然出人意料地有效。像 ARIMA 和 Prophet 這樣的經典方法可以在現代硬體上在幾秒鐘內對新資料集進行重新訓練,使零樣本優勢不如最初聲稱的那麼引人注目。
對於穩定、可預測的工作負載,經典模型通常以更低的計算成本提供更好的準確性。這挑戰了更大、更復雜的模型自動提供更好結果的假設。
前進之路
這場爭論突出了 AI 研究中的一個更廣泛問題:營銷宣告與實際效能之間的差距。雖然時間序列基礎模型在處理複雜的多變數資料流方面顯示出前景,但它們並不是一些供應商所暗示的通用解決方案。
未來的評估需要更多樣化的資料集、更好的指標以及與經典方法的誠實比較。社群呼籲像 M4 競賽框架這樣的標準化基準測試,以提供更可靠的效能評估。
技術發展迅速,但使用者應該以健康的懷疑態度對待基礎模型的宣告。對於許多應用來說,更簡單的傳統方法可能仍然是更好的選擇。
參考資料: Zero-Shot Forecasting: Our Search for a Time-Series Foundation Model