日前有兩名作者對蘋果公司發起集體訴訟 (但集體訴訟地位還需要法院確認),指控蘋果公司在未經授權的情況下盜取書籍并利用書籍內容來訓練其人工智能模型。
蘋果和其他人工智能公司可能都在使用名為 Books3 的數據集訓練 AI 模型,Books3 數據集合計包含 19.6 萬本書籍,其中可能有不少書籍都是未經授權的。
原告在起訴書中表示:
蘋果正在使用 Books3 數據集構建蘋果的 AI 系統,這個盜版書籍數據集包含原告和集體訴訟成員的已出版作品,蘋果使用 Books3 訓練其 OpenELM 語言模型,蘋果很可能也使用相同的盜版數據集來訓練其 Foundation 語言模型。
蘋果并未就其版權作品的使用向內容創作者支付任何報酬,并且蘋果還隱瞞了該公司訓練數據集的來源以逃避法律審查。
原告還表示蘋果使用盜版內容的行為是蓄意且具有商業意義的,因為蘋果希望其 AI 系統能夠在未來幾年內為其市值增加數萬億美元,但蘋果只選擇性的為用于訓練模型的內容付費,例如蘋果與 Shutterstock 簽訂數百萬美元的許可協議,但并未與原告或集體訴訟成員簽訂授權協議。
大多數人工智能公司都依靠從互聯網上抓取數據以訓練模型,蘋果使用名為 Applebot 爬蟲在互聯網上抓取數據,蘋果也披露計劃利用 Applebot 抓取的數據訓練人工智能系統。
不過這些爬蟲可能會從各個渠道抓取盜版內容 (爬蟲本身無法分辨是否是盜版內容),例如有爬蟲從影子圖書館抓取數百萬部盜版書籍,最終這些書籍都會成為人工智能系統的訓練數據。
在起訴書中原告尋求集體訴訟的損害賠償和救濟禁令,由于該訴訟涉及的內容創作者非常多且地域分布廣泛,原告要求蘋果識別每一位被竊取作品的作者 (以便將他們納入集體訴訟地位)。
以上就是“兩名作者對蘋果公司發起集體訴訟 指控蘋果竊取書籍并利用內容訓練AI模型”的詳細內容,想要了解更多IT圈內資訊歡迎持續關注編程學習網。
掃碼二維碼 獲取免費視頻學習資料
- 本文固定鏈接: http://www.wangchenghua.com/post/13497/
- 轉載請注明:轉載必須在正文中標注并保留原文鏈接
- 掃碼: 掃上方二維碼獲取免費視頻資料