在一項令人驚訝的發展中,TikTok 的母公司 ByteDance 推出了一個網路爬蟲機器人,在資料收集競賽中迅速超越了競爭對手。據報道,這個名為 Bytespider 的機器人爬取網際網路的速度比 OpenAI 的 GPTbot 快25倍,比 Anthropic 的 ClaudeBot 快3,000倍。
Bytespider 的崛起
Bytespider 於2024年4月推出,迅速成為網際網路上最具侵略性的資料收集工具之一。根據機器人管理公司 Kasada 和監控服務 Dark Visitors 的研究,ByteDance 的爬蟲與 Google、Meta、Amazon、OpenAI 和 Anthropic 等科技巨頭使用的類似工具相比,執行速度前所未有。
對人工智慧發展的影響
這種激進的資料收集策略表明,ByteDance 正在努力追趕人工智慧競賽。據報道,該公司去年使用 OpenAI 的技術構建自己的大型語言模型(LLMs),現在似乎決心為其人工智慧計劃收集海量的訓練資料。
有爭議的做法
Bytespider 的做法在科技界引起了一些爭議。與一些競爭對手一樣,該機器人據報道會忽視 robots.txt 檔案,這些檔案被網站所有者用來指示其網站的哪些部分不應被爬取。這種做法雖然不違法,但在持續進行的資料權利和人工智慧訓練辯論中被認為是有爭議的。
潛在應用
熟悉 ByteDance 野心的訊息人士表示,該公司可能正在開發一個新的大型語言模型,可能用於增強 TikTok 的搜尋功能。改進的人工智慧驅動的搜尋環境可能會使 TikTok 對目前在 Google 等平臺上大量投資的廣告商更具吸引力。
未來影響
隨著 ByteDance 繼續加大資料收集力度,關於人工智慧發展和資料使用的未來問題也隨之而來。該公司的激進方法可能會引發更多關於資料權利、人工智慧倫理以及在快速發展的人工智慧領域制定監管框架的必要性的討論。
雖然 ByteDance 的 Bytespider 展示了該公司致力於提升其人工智慧能力的決心,但它也凸顯了科技行業日益激烈的競爭以及資料在人工智慧軍備競賽中日益重要的地位。