IT 之家 11 月 5 日消息,影子圖書館 " 安娜的檔案 " 官方博客當地時間 10 月 4 日宣布,該網站現已經收購一批 " 獨特的 "750 餘萬份、共計 359TB 的電子圖書,并表示願意爲一系列大語言模型公司提供獨家早期訪問權限,以獲得高質量的圖書 OCR(IT 之家注:Optical Character Recognition,光學字符識别)和文本提取。
" 安娜的檔案 " 在博客中介紹,讀秀是由超星數字圖書館創建的大量掃描圖書的數據庫,大多數是學術圖書,通過掃描可以使它們以數字化的形式提供給大學和圖書館。" 安娜的檔案 " 表示曾希望批量獲取它,并爲此分配了多個月的全職工作。
最終,一位 " 不可思議、了不起、才華橫溢 " 的志願者宣布已經完成上述所有工作,并爲之 " 付出巨大代價 ",并無償分享了所有藏品。
圖源 Pixabay
從總數來看,這個收藏品共有 7543702 個文件,多過另一家 " 影子圖書館 "Library Genesis 的 530 萬本非虛構圖書。
不過,圖書的原作者通常不會喜歡利用 " 影子圖書館 " 來訓練 AI 大模型的行爲。據 IT 之家此前報道,上個月美國就有多名作家向紐約聯邦法院提起訴訟,指控 Meta、微軟等科技巨頭未經許可使用他們的作品來訓練 AI 模型。
這一作家團體此前已經提交了拟議集體版權訴訟,文件稱 Meta 和微軟采用了具有争議的 "Books3" 數據集來訓練他們的大模型,告訴大模型如何回應人類的提示和指令。