Cloudflare 因第三方依賴故障遭遇重大宕機,暴露基礎設施脆弱性

BigGo 編輯部
Cloudflare 因第三方依賴故障遭遇重大宕機,暴露基礎設施脆弱性

2025年6月12日, Cloudflare 發生了一次持續約3小時的大規模宕機事件,引發了關於雲基礎設施依賴性和單點故障的激烈討論。此次事件影響了眾多關鍵服務,包括 Workers KV 、 Access 、 WARP 以及 Cloudflare 控制檯的部分功能,事故原因被歸咎於 Cloudflare 所依賴的一項關鍵第三方服務的故障。

故障時間線 (UTC):

  • 18:19 - 初始事件報告(訪問身份驗證失敗)
  • 18:30-19:00 - 影響評估和服務識別
  • 19:12 - 觀察到首次恢復跡象
  • 19:57 - 根本原因確定(第三方服務依賴)
  • 20:32 - 服務在全球範圍內恢復
  • 20:57 - 所有服務恢復,轉入監控狀態
  • 21:31 - 事件正式解決 總持續時間: 約3小時

第三方依賴創造了意想不到的脆弱性

此次宕機最令人震驚的發現是 Cloudflare 承認其 Workers KV 服務因第三方服務故障而離線。社群討論很快確定 Google Cloud Platform ( GCP )是可能的罪魁禍首,因為 GCP 同時遭遇了影響其身份和訪問管理服務的宕機。這種依賴關係讓許多使用者感到意外,他們原本期望 Cloudflare 的服務完全執行在自己的基礎設施上。對於觀察者來說,一家以為他人提供冗餘和可靠性而聞名的公司本身卻容易受到外部依賴影響,這種諷刺意味顯而易見。

第三方依賴:當一項服務依賴另一家公司的服務才能正常執行時,會在直接控制範圍之外創造潛在的故障點。

級聯故障揭示設計缺陷

此次宕機突顯了 Cloudflare 新服務中令人擔憂的架構決策。與保持正常執行的核心 CDN 和安全服務不同,許多高階服務在 Workers KV 宕機時遭遇了級聯故障。社群成員注意到, Access 身份驗證、瀏覽器隔離、 Durable Objects 和 AI 驅動的功能等服務全部同時不可用。這表明這些服務缺乏適當的故障隔離,即一個元件的故障不應導致無關係統的宕機。

級聯故障:當一個系統元件的故障導致後續元件連續故障,就像多米諾骨牌依次倒下。

受影響的 Cloudflare 服務:

  • Access(身份驗證服務)
  • WARP(VPN 服務)
  • Browser Isolation
  • Browser Rendering
  • Durable Objects(僅限 SQLite 支援的)
  • Workers KV(鍵值儲存)
  • 即時服務
  • Workers AI
  • Stream(影片服務)
  • Turnstile(CAPTCHA 替代方案)
  • AI Gateway
  • AutoRAG
  • Cloudflare 控制面板的部分功能

恢復過程暴露全球協調挑戰

恢復過程本身也成為技術觀察者批評的焦點。使用者報告稱,服務在不同地區的恢復情況不一致,一些使用者在美國體驗到了功能恢復,而歐洲客戶仍然受到影響。恢復過程似乎需要全球協調才能恢復本地服務,這表明存在潛在的架構問題。

「如果你的修復需要全球協調才能解決本地流程問題,那就是設計缺陷」

社群的這一觀察突出了一個根本性擔憂:現代雲服務的架構方式,以及它們是否真正提供了所承諾的分散式彈性。

更廣泛的行業影響

此次事件與其他主要供應商包括 AWS 和 Google Cloud 的宕機同時發生,引發了對更廣泛基礎設施問題的猜測,包括潛在的 BGP 路由問題。這些宕機的同時性質引發了關於現代網際網路基礎設施互聯性的質疑,以及行業是否在解決舊問題的同時創造了新型系統性風險。

此次宕機提醒我們,即使是處於網際網路基礎設施前沿的公司在構建真正彈性系統方面也面臨挑戰。隨著雲服務變得越來越複雜和相互依賴,傳統的冗餘和容錯方法可能需要根本性的重新思考,以應對這些新類別的故障模式。

參考: Broad Cloudflare service outages