編程學(xué)習(xí)網(wǎng) > IT圈內(nèi) > Reddit論壇將阻止互聯(lián)網(wǎng)檔案館抓取頁(yè)面 因?yàn)锳I公司從互聯(lián)網(wǎng)檔案館抓取數(shù)據(jù)
2025
08-16

Reddit論壇將阻止互聯(lián)網(wǎng)檔案館抓取頁(yè)面 因?yàn)锳I公司從互聯(lián)網(wǎng)檔案館抓取數(shù)據(jù)


知名互聯(lián)網(wǎng)論壇 Reddit 日前透露該公司發(fā)現(xiàn)人工智能公司通過(guò)互聯(lián)網(wǎng)檔案館 (Internet Archive) 的網(wǎng)站時(shí)光機(jī) (Wayback Machine) 抓取來(lái)自 Reddit 的數(shù)據(jù),這種行為已經(jīng)違反 Reddit 使用條款。

Reddit 此前已經(jīng)阻止大多數(shù)搜索引擎爬蟲(chóng)和人工智能爬蟲(chóng)抓取數(shù)據(jù),如果要抓取數(shù)據(jù)用于人工智能模型訓(xùn)練的話(huà),則需要與 Reddit 簽署商業(yè)許可證并支付費(fèi)用后才能抓取。

例如谷歌就每年向 Reddit 論壇支付高達(dá) 6000 萬(wàn)美元以獲得數(shù)據(jù)訪問(wèn)權(quán),谷歌可以通過(guò)抓取 Reddit 海量帖子和其他數(shù)據(jù)用于模型訓(xùn)練,對(duì)谷歌來(lái)說(shuō)這仍然是個(gè)值得的交易。

而互聯(lián)網(wǎng)檔案館長(zhǎng)期以來(lái)與 Reddit 合作索引帖子并將其快照到網(wǎng)站時(shí)光機(jī)中以便可以在未來(lái)查看,不想支付費(fèi)用的人工智能公司開(kāi)始將爬蟲(chóng)轉(zhuǎn)向互聯(lián)網(wǎng)檔案館,通過(guò)互聯(lián)網(wǎng)檔案館作為抓取 Reddit 的媒介。

發(fā)現(xiàn)這種情況后 Reddit 決定立即開(kāi)始阻止互聯(lián)網(wǎng)檔案館對(duì)于大多數(shù)頁(yè)面的抓取和索引,網(wǎng)站時(shí)光機(jī)功能無(wú)法再抓取帖子詳情頁(yè)面、評(píng)論和個(gè)人資料,相反網(wǎng)站時(shí)光機(jī)只能有限的抓取 Reddit 首頁(yè)或者熱門(mén)帖子導(dǎo)航,也就是只能抓取標(biāo)題之類(lèi)的內(nèi)容。

Reddit 首席執(zhí)行官稱(chēng)從今天開(kāi)始阻止互聯(lián)網(wǎng)檔案館的數(shù)據(jù)抓取,同時(shí)已經(jīng)提前聯(lián)系互聯(lián)網(wǎng)檔案館并在限制生效前告知他們。互聯(lián)網(wǎng)檔案館稱(chēng)目前正在積極與 Reddit 就此事進(jìn)行溝通。

此前 Reddit 還起訴 Claude 開(kāi)發(fā)商 Anthropic,Reddit 指控 Anthropic 未經(jīng)授權(quán)抓取內(nèi)容,即便 Reddit 聲明阻止其爬蟲(chóng)抓取數(shù)據(jù),Anthropic 也依然還會(huì)繼續(xù)抓取內(nèi)容并違反 Reddit 使用條款。

以上就是“Reddit論壇將阻止互聯(lián)網(wǎng)檔案館抓取頁(yè)面 因?yàn)锳I公司從互聯(lián)網(wǎng)檔案館抓取數(shù)據(jù)的詳細(xì)內(nèi)容,想要了解更多IT圈內(nèi)資訊歡迎持續(xù)關(guān)注編程學(xué)習(xí)網(wǎng)。

掃碼二維碼 獲取免費(fèi)視頻學(xué)習(xí)資料

Python編程學(xué)習(xí)

查 看2022高級(jí)編程視頻教程免費(fèi)獲取