編程學習網 > IT圈內 > Cloudflare推出AI爬蟲紅黑榜 字節跳動因不遵守抓取協議直接墊底
2025
07-31

Cloudflare推出AI爬蟲紅黑榜 字節跳動因不遵守抓取協議直接墊底


網絡服務提供商 Cloudflare 日前推出 AI 爬蟲紅黑榜,通過四個維度對人工智能公司的爬蟲進行驗證、識別和統計,首批被評測的爬蟲包括 OpenAI、Google、Meta、Anthropic、xAI 和字節跳動。

目前評價比較優秀的只有 OpenAI 的 ChatGPT 系列爬蟲,而墊底的則是 xAI Grok 爬蟲和字節跳動爬蟲,其中字節跳動爬蟲因各種項目全部沒有達標而排在末尾。

接下來這個紅黑榜網站還會記錄 RAG 和搜索引擎爬蟲并給出得分,后續也會陸續增加更多爬蟲的識別和評分,而網站則可以根據紅黑榜決定是否要通過更激進的手段屏蔽這些爬蟲 (畢竟 robots.txt 已經沒啥用)

四個維度如下:

爬蟲 IP 是否已驗證:AI 公司是否已經公布爬蟲的 IP 地址段,公布后有助于準確識別避免其他爬蟲冒充

是否通過 WebBotAuth 驗證:WebBotAuth 是一種通過加密簽名驗證爬蟲身份的協議,比通過 IP 識別更準確

爬蟲是否分離:分離爬蟲很重要,因為網站可以根據不同類型的爬蟲做出相應處理,例如有爬蟲專門為了抓取數據就可以直接屏蔽,而有些爬蟲則為了搜索引擎使用可能可以提供流量,這種爬蟲可以被保留抓取。

是否遵守 robots.txt 協議:該協議用來指示爬蟲是否允許抓取以及允許抓取哪些路徑,這是個行業約定俗成的規范,部分爬蟲完全不遵守該協議

字節跳動的爬蟲每天會在整個互聯網上抓取數據但卻不遵守 robots.txt 協議,字節跳動也沒有公開 IP 地址段導致網站管理員無法判斷自稱 Bytespider 是否真的來自字節跳動。

此前就因為字節跳動的爬蟲高頻次抓取內容且不遵守 robots.txt 協議而不得不直接在服務器配置文件中阻斷 UA 包含任何 Bytespider 字符串的請求以減少服務器開支。

不過除了字節跳動外其他爬蟲也好不到哪去,例如 Anthropic 和 xAI Grok 的爬蟲可能也不遵守 robots.txt 協議,由于這些公司都沒有提供 IP 地址段可以用來驗證爬蟲,所以 Cloudflare 無法判斷它們是否遵守 robots.txt 協議。

以上就是“Cloudflare推出AI爬蟲紅黑榜 字節跳動因不遵守抓取協議直接墊底的詳細內容,想要了解更多IT圈內資訊歡迎持續關注編程學習網。

掃碼二維碼 獲取免費視頻學習資料

Python編程學習

查 看2022高級編程視頻教程免費獲取