據(jù)外媒 Ars Technica 報(bào)道,當(dāng)?shù)貢r(shí)間周一公開的法庭文件披露,人工智能公司 Anthropic 曾斥資數(shù)百萬美元,將實(shí)體圖書拆解并掃描成數(shù)字文件,用于訓(xùn)練類似 ChatGPT 的 AI 助手 Claude。為了獲取訓(xùn)練數(shù)據(jù),公司將大量圖書拆除裝訂、掃描進(jìn)系統(tǒng),隨后直接丟棄原件。
判決書長(zhǎng)達(dá) 32 頁,披露了 Anthropic 在 2024 年 2 月雇傭 Tom Turvey 的經(jīng)過。Turvey 曾負(fù)責(zé) Google Books 項(xiàng)目的合作事務(wù),公司委托他“獲取全世界的圖書”。這一戰(zhàn)略性人事安排,顯然是希望復(fù)制谷歌曾被法院認(rèn)定為合理使用的圖書數(shù)字化模式。
最終,法官 William Alsup 裁定,該掃描方式構(gòu)成合理使用,理由是圖書已由 Anthropic 合法購(gòu)買、掃描后即刻銷毀,且數(shù)字文件僅限內(nèi)部使用,未向外傳播。他認(rèn)為這類轉(zhuǎn)換相當(dāng)于“節(jié)省空間”的數(shù)字化轉(zhuǎn)化,具有合理使用中的“轉(zhuǎn)化性”特征。如果公司一開始就遵守這一路徑,或許已樹立 AI 合理使用的首個(gè)判例,但早期的盜版行為削弱了其合法性。
核心原因其實(shí)很簡(jiǎn)單:AI 訓(xùn)練需要海量?jī)?yōu)質(zhì)文本。為了構(gòu)建大語言模型,研究人員需將億萬詞語輸入神經(jīng)網(wǎng)絡(luò),反復(fù)訓(xùn)練模型,建立詞語與概念之間的關(guān)系。
訓(xùn)練數(shù)據(jù)的質(zhì)量直接影響模型輸出的準(zhǔn)確性。相比網(wǎng)絡(luò)評(píng)論等雜亂信息,編輯過的書籍和文章能顯著提升 AI 的語言能力。
AI 公司急需出版內(nèi)容,但通常不愿耗費(fèi)時(shí)間談授權(quán)。美國(guó)的“首次銷售原則”提供了法律空間:買下實(shí)體書之后,使用者可以自行處理。這就讓購(gòu)買圖書成為一種合法的“繞道方案”。
和許多同行一樣,Anthropic 最初選擇了繞過版權(quán)的捷徑。IT之家從法庭材料獲悉,為了繞開冗長(zhǎng)復(fù)雜的授權(quán)流程,CEO 阿莫代伊曾主張使用盜版電子書。但到了 2024 年,出于法律考慮,公司開始尋求更安全的替代方案。
收購(gòu)二手書成為理想選擇:不必談授權(quán),又能獲得質(zhì)量上乘的訓(xùn)練文本。為了加快數(shù)字化進(jìn)程,Anthropic 采用“破壞式掃描”,大量購(gòu)入圖書,拆封、裁剪、整批掃描為機(jī)器可讀的 PDF 文件,完成后紙本全部廢棄。整個(gè)流程耗資數(shù)百萬美元。
該公司的購(gòu)買對(duì)象大多是零售渠道的普通舊書。但事實(shí)上,非破壞性掃描技術(shù)早已成熟。比如 Internet Archive 就開發(fā)出可保留原書的數(shù)字化手段。本月早些時(shí)候,OpenAI 和微軟也宣布與哈佛大學(xué)圖書館合作,計(jì)劃使用近百萬本公版書籍訓(xùn)練 AI,這些書籍在被數(shù)字化的同時(shí)依舊妥善保存。