AI“讀書”合法了:美法院最新裁定,無需作者同意,已購書籍可用於訓練AI

不圓 發自 凹非寺量子位 | 公眾號 QbitAI
無需原作者同意,AI可以用已出版書籍作訓練資料了
就在最新判決的訴訟中,美國法院裁決:允許Claude背後公司Anthropic在未經作者許可的情況下,使用合法購買的已出版書籍訓練AI。
法院參考了美國版權法中的“合理使用”(Fair Use)原則,認為AI訓練屬於“轉化性使用”(Transformative Use),即對原作品的新用途未取代原作市場,且有利於技術創新和公共利益。
這是美國法院首次認可AI公司對書籍的使用權,保護人工智慧公司在使用受版權保護的文字訓練 LLMs 時不受限制:
大大降低了AI訓練資料的版權風險
對此,不少網友的看法是這樣的:既然人類讀書並加以理解是毫無爭議的,那AI讀書並理解也應該合理。

怎麼一回事?

對Anthropic的指控,由三位作家在2024年8月發起。
值得關注的是,Anthropic的案件不僅針對使用已出版書籍訓練AI,還涉及到書籍的來源問題:
2021年,Anthropic的聯合創始人Ben Mann從盜版網站下載19.6萬本受版權保護的書籍。
到2022年,Anthropic又從LibGen和PiLiMi下載了“至少500萬份複製(copies)”和“200萬份複製”,建立數字化圖書館。
儘管Anthropic在那時已意識到盜版法律風險(“not so gung ho about pirated books for legal reasons”),但仍保留所有盜版副本
2023年3月,Anthropic從數字化圖書館選擇書籍子集訓練Claude模型,Claude首版釋出。
2024年2月,Anthropic僱傭前Google圖書掃描專案負責人Turvey,轉向合法採購並掃描書籍,購買數百萬本紙質書。
Turvey傳送了“一兩封郵件”(“an email or two”)給出版商,但未持續跟進(“let those conversations wither”)
根據美國法院對Anthropic的裁決文書,可以關注到以下幾點:
1、這次事件的爭議主要在Anthropic未經過創作者允許,使用已購買的正版書籍或盜版書籍對Claude進行訓練。
2、原告對於Anthropic的指控是:非法複製作品(包括盜版和掃描版)用於訓練AI,侵犯版權
3、法院裁定Anthropic可以使用合法採購書籍的掃描副本用於訓練AI的資料處理,認為AI訓練具有“高度轉化性”,未直接替代原作市場,且輸出未侵犯原告作品。
4、法院同時裁定盜版書籍的使用不構成合理使用,盜版行為本身涉及侵權。盜版相關責任及賠償問題需進入審判階段。
有網友簡單總結為:關鍵在於訓練使用書籍的來源是不是盜版。
也就是說,AI公司可未經原作者許可使用合法購買的書籍訓練AI
有網友表示:這是一個正確的決定,就像人類可以去圖書館或者讀自己買的書一樣自然。

同樣的,這個裁決結果也面臨著一些爭議:AI可以和人類一概而論嗎?創作者又該如何保護他們的知識?

類似案例

類似案例曾出現在其他AI公司的訴訟中。
2015年Goggle Books:美國最高法院認定屬於“合理使用”
2004年,Google開始了“Google’s Library Project ”,這個計劃與各大圖書館合作,打算將超過兩千萬冊圖書掃描並數字化,供Google使用者直接搜尋。被掃描的圖書包括超過著作權保護期限的公有作品和那些尚處在著作權保護期內的書籍。
Google Books的處理是:對公有作品和內容提供全文免費瀏覽和PDF格式的下載;對尚處在著作權保護期內的作品,只提供書目、簡介和少數章節的內容,同時提供正版的電子書或印刷版購買連結。
2005年,美國作家協會等機構將Google Books告上法庭,認為Google未經授權掃描全書構成版權侵權,理由包括:
  • 全文數字化複製侵犯作者複製權;
  • 片段瀏覽功能可能替代原作市場;
  • 有商業動機(搜尋業務衍生收益);
  • 數字副本儲存存在駭客洩露風險;
  • 向合作圖書館分發副本可能損害版權人利益。
2013年,美國聯邦法院作出了第一判決,駁回原告訴求,認定Google的搜尋和片段瀏覽功能只“轉化”了原作用途(從閱讀到資訊檢索,未提供實質替代內容,可促進學術研究和圖書發現,構成合理使用的條件。
2015年,二審維持原判。
2022年GitHub Copilot:促使AI公司推出“程式碼來源標註”功能
GitHub Copilot是微軟旗下GitHub開發的AI程式設計助手,基於OpenAI的Codex模型,透過分析公開程式碼庫(如 GitHub 上的開源專案)生成程式碼建議。
2022年,多名開源開發者及組織指控GitHub Copilot:
  • 許可證違規:Copilot 訓練時使用了 GPL 等“傳染性”開源許可證程式碼,但生成程式碼未遵循原許可證要求(如保留版權宣告)。
  • 版權侵權:生成的程式碼與開原始碼高度相似,涉嫌直接複製。
  • 商業濫用:微軟將免費開原始碼轉化為付費工具(Copilot 企業版),違背開源精神。
根據公開報道和訴訟進展,關鍵結論如下:
  • 法院認定 AI 訓練使用開原始碼屬於“轉化性使用”,不構成直接侵權(參考Google Books案邏輯);
  • 原告未能證明Copilot系統性輸出侵權程式碼,偶發相似片段不構成大規模違規;
  • 法院要求GitHub加強過濾機制,避免輸出受GPL等強許可證約束的程式碼,或明確標註來源及許可證要求,並提供工具供使用者檢查程式碼與開源庫的相似性。
2023年2月,GitHub正式釋出“程式碼來源檢測”功能(Code Referencing),作為預設服務整合到Copilot中,幫助使用者識別生成程式碼與開源專案的關聯性。
2023年Open AI&Meta:仍在受理
2023年,多名作家、演員以及全球出版商聯盟指控Open AI和Meta使用盜版資料訓練AI,資料包含來自“影子圖書館”(如 Bibliotik、LibGen、Z-Library)的書籍,這些網站提供未經授權的版權內容。
ChatGPT能準確總結原告的書籍,證明模型“記憶”了受保護文字;Meta CEO扎克伯格及AI團隊明知LibGen為盜版,仍決定使用其資料訓練Llama 3,以加速超越OpenAI。
關於Open AI和Meta的案件仍在受理中,尚未明確裁決。
本次Anthropic案的勝訴並非孤例,而是美國司法系統在“技術創新vs.版權保護”的拉鋸中傾向前者的體現,也是美國首次有法院支援合理使用原則,保護人工智慧公司在使用受版權保護的文字訓練 LLMs 時不受限制。
意味著此後AI可以研究其購買而非從盜版網站獲取的內容
有網友認為,本次裁決結果可能影響美國法院對Open AI和Meta案件的審理。

參考連結:[1]https://x.com/rohanpaul_ai/status/1937598431947808893[2]https://storage.courtlistener.com/recap/gov.uscourts.cand.434709/gov.uscourts.cand.434709.231.0_2.pdf[3]https://githubcopilotlitigation.com/[4]https://x.com/CeciliaZin/status/1740109462319644905
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
📪 量子位AI主題策劃正在徵集中!歡迎參與專題365行AI落地方案,一千零一個AI應或與我們分享你在尋找的AI產品,或發現的AI新動向
💬 也歡迎你加入量子位每日AI交流群,一起來暢聊AI吧~

一鍵關注 👇 點亮星標
科技前沿進展每日見

相關文章