Cloudflare 推出 AI 迷宮以對抗未授權資料抓取

BigGo Editorial Team
Cloudflare 推出 AI 迷宮以對抗未授權資料抓取

在網站所有者與未經許可抓取內容的 AI 公司之間的持續戰鬥中,Cloudflare 推出了一項創新的對策。這種新方法不只是簡單地阻止不受歡迎的爬蟲,而是旨在浪費它們的資源,同時保護原創內容不被收集用於 AI 訓練資料集。

對抗 AI 抓取器的新防禦策略

Cloudflare 推出了 AI Labyrinth,這是一款免費工具,旨在打擊未經許可收集 AI 訓練資料的網路爬蟲。與傳統的阻止方法不同,AI Labyrinth 採取了更加巧妙的方法,將檢測到的機器人重定向到 AI 生成的誘餌頁面,有效地浪費它們的計算資源,同時保護真實內容。這一戰略轉變是在 Cloudflare 報告每天處理超過 500 億個網路爬蟲請求的背景下出現的,凸顯了網站所有者面臨的抓取問題規模之大。

網路爬蟲統計資料:

  • Cloudflare 每天處理超過500億次網路爬蟲請求
  • 網路爬蟲請求約佔 Cloudflare 所見全部網路請求的1%

AI Labyrinth 如何工作

當 AI Labyrinth 檢測到不適當的機器人行為時,它不會立即阻止爬蟲。相反,它向機器人展示指向合成內容的連結,這些內容看起來足夠合法,能夠欺騙自動化系統。當爬蟲跟隨這些連結時,它會被引導進入一個由 AI 生成的頁面迷宮,這些頁面與實際網站內容無關。這些誘餌頁面專門設計成對人類訪問者不可見,同時對爬蟲保持吸引力。Cloudflare 透過首先生成多樣化的主題,然後為每個主題建立內容,精心構建了這些頁面,確保誘餌多樣且具有說服力。

解決 Robots.txt 問題

管理網路爬蟲的傳統方法依賴於 robots.txt 檔案,該檔案透過指定網站的哪些部分不應被爬取來運作,這是一種基於榮譽系統的方式。然而,包括 Anthropic 和 Perplexity AI 在內的幾家 AI 公司被指責忽視了這些指令。AI Labyrinth 為這個問題提供了一個更積極主動的解決方案,透過使未授權的抓取變得適得其反,而不是簡單地要求遵守規則。

超越簡單的阻止

Cloudflare 解釋說,簡單地阻止惡意機器人通常會提醒攻擊者他們已被檢測到,促使他們改變策略,從而創造一場永無止境的軍備競賽。AI Labyrinth 採取了不同的方法,讓爬蟲認為它們成功地收集了資料,而實際上收集的是毫無意義的內容。這一策略不僅保護網站,還有助於識別可能未被檢測到的新機器人模式和特徵。

蜜罐功能

除了其主要的防禦角色外,AI Labyrinth 還充當 Cloudflare 所稱的下一代蜜罐。該系統可以根據行為模式識別惡意機器人,因為合法的人類訪問者通常不會跟隨多個連結進入 AI 生成的內容頁面。這有助於 Cloudflare 建立更全面的不良行為者資料庫,並隨著時間的推移提高其檢測能力。

內容質量考慮

Cloudflare 強調,它正在採取措施確保 AI Labyrinth 不會助長網際網路上的錯誤資訊。該公司表示,生成的內容是真實的,與科學事實相關,只是與被爬取的網站無關或不專屬於該網站。這種方法旨在浪費爬蟲資源,而不向網路生態系統新增誤導性資訊。

可用性和實施

AI Labyrinth 可供所有 Cloudflare 客戶使用,包括免費層級的客戶。網站管理員可以透過 Cloudflare 控制面板啟用此功能,只需導航到機器人管理部分並開啟 AI Labyrinth 選項。實施過程設計得很簡單,使用者無需建立自定義規則。

AI Labyrinth 主要特點:

  • 面向所有 Cloudflare 客戶的免費且自主選擇加入的工具
  • 將未授權的爬蟲重定向到 AI 生成的誘餌內容
  • 作為蜜罐功能,用於識別新的機器人模式
  • 生成科學準確但不相關的內容
  • 誘餌頁面對人類訪問者保持不可見
  • 使用者無需建立自定義規則

未來發展

Cloudflare 表示,此次釋出只是其 AI 驅動的機器人防禦策略的開始。該公司計劃發展 AI Labyrinth,建立整個連結 URL 網路,這些網路將越來越真實,自動程式也越來越難以識別為假。這種持續發展旨在領先於可能適應當前實施方式的機器人檢測技術。