AI 資料爬蟲機器人癱瘓文化機構網站,流量激增90%

BigGo 編輯部
AI 資料爬蟲機器人癱瘓文化機構網站,流量激增90%

全球文化機構正面臨前所未有的數位危機。博物館、圖書館和檔案館紛紛回報,他們的網站正被積極進行 AI 訓練的機器人大量爬取內容,爬取強度如此之高,導致服務中斷和無法承受的伺服器成本。

這波激增起初悄然開始,但現已達到令人擔憂的程度。超過90%的受訪機構現在每週都會遭遇這些積極的機器人多次攻擊,許多機構因此經歷完全的網站當機。

開放取用資料庫影響:

  • COAR 調查了 66 個資料庫
  • 超過 90% 遭遇惡意機器人攻擊
  • 攻擊發生頻率超過每週一次
  • 經常導致系統緩慢和服務中斷

傳統網路防禦措施正在失效

標準的 robots.txt 檔案——一個簡單的文字檔案,用來禮貌地要求網路爬蟲尊重某些界限——對現代 AI 資料收集來說基本上已經無用。這些機器人要麼完全忽略這些準則,要麼運作得如此積極,以至於自願遵守根本毫無意義。

一些機構已轉向使用 AWS 和 Cloudflare 等公司的商業機器人防護服務,但這些解決方案帶來了新的問題。增加登入要求違背了提供免費公眾存取文化收藏的目的,而複雜的防火牆需要技術專業知識和持續成本,這是許多機構根本無法負擔的。

Robots.txt:網站用來與網路爬蟲溝通其網站哪些部分應該或不應該被存取的標準文字檔案

AI 進步的隱藏成本

讓這種情況特別具有挑戰性的是問題的隱蔽性。許多機構直到網站開始當機才意識到他們正遭受攻擊。這些機器人消耗大量頻寬和伺服器資源,產生的成本是文化組織——通常預算緊張——無法承受的。

社群正在探索創新的技術解決方案,包括在存取內容前需要計算工作量證明的系統,以及追蹤和限制重複訪客的基於 cookie 的速率限制。然而,隨著機器人操作者調整其技術,這些方法可能只能提供暫時的緩解。

文化機構調查結果:

  • GLAM-E Lab 調查了 43 個組織
  • 43 個組織中有 39 個最近經歷了流量增加
  • 27 個組織將流量增加明確歸因於 AI 訓練機器人
  • 另外 7 個組織懷疑與機器人有關

網路流量的根本性轉變

這種情況代表了網際網路運作方式的劇烈變化。傳統的網路流量模式假設大多數訪客是偶爾瀏覽內容的人類。現在,自動化系統正在系統性地下載整個收藏,從根本上打破了使免費線上存取成為可能的經濟模式。

「託管線上收藏的文化機構沒有資源持續增加更多伺服器、部署更複雜的防火牆,以及無限期地聘請更多營運工程師。」

這個問題不僅限於企業 AI 公司。隨著 AI 硬體變得更加負擔得起,個人開發者和小型專案越來越多地建立自己的模型,導致網路上的爬取活動成倍增加。

機器人活動時間軸:

  • 部分機構早在 2021 年就注意到流量增加
  • 其他機構直到 2024 年才開始遇到問題
  • 問題升級往往在網站當機前都未被察覺
  • 流量激增歸因於 ChatGPT 後的 AI 熱潮

展望未來

這場危機突顯了關於免費線上內容未來的更廣泛問題。如果網站無法負擔同時為人類訪客和 AI 訓練機器人提供服務的成本,許多網站可能被迫設定付費牆或完全關閉,這可能會限制公眾對文化遺產和教育資源的存取。

解決方案可能需要 AI 公司開發更可持續的資料收集實務,不會對他們所依賴的網站造成負擔。如果沒有這樣的合作,目前免費、開放存取文化收藏的模式可能在經濟上變得無法維持。

參考資料:Bots are overwhelming websites with their hunger for AI data