人工智能合理使用決定對半導(dǎo)體行業(yè)來說是個好兆頭
最近,在兩起挑戰(zhàn)大型語言模型 (LLM) 訓(xùn)練的版權(quán)侵權(quán)訴訟中,被告根據(jù)合理使用對被告做出了簡易判決,其中一項針對 Meta 的 Llama LLM,[1],另一項針對 Anthropic 的 Claude LLM。[2] 這些決定預(yù)示著生成式人工智能行業(yè)的持續(xù)發(fā)展, 因此,對于半導(dǎo)體行業(yè)來說也是如此,該行業(yè)正在構(gòu)建生成式人工智能技術(shù)堆棧的基礎(chǔ)設(shè)施和更高層。
在這兩種情況下,作者都對未經(jīng)授權(quán)下載其受版權(quán)保護的作品以及將其復(fù)制和用于培訓(xùn)法學(xué)碩士提出質(zhì)疑,在 Anthropic 的案例中,還對創(chuàng)建通用數(shù)字圖書館提出了質(zhì)疑。這兩起案件都不涉及對法學(xué)碩士產(chǎn)出的挑戰(zhàn)。
法學(xué)碩士培訓(xùn)
法學(xué)碩士的訓(xùn)練涉及使用大量文本(包括克勞德和駱駝的數(shù)百萬本書),這些文本在一個多步驟的過程中被復(fù)制,從每個文本開始,每個文本都被翻譯成簡短的單詞序列和標(biāo)點符號,稱為“標(biāo)記”,這是執(zhí)行訓(xùn)練的單位。然后,訓(xùn)練涉及使用統(tǒng)計語言模型從這些“標(biāo)記化”文本中學(xué)習(xí)模式,包括根據(jù)前一個單詞的上下文預(yù)測序列中的下一個單詞,然后重復(fù)該過程。將預(yù)測與原始預(yù)測進行比較,并相應(yīng)地調(diào)整統(tǒng)計模型,以便下次更有可能正確預(yù)測。統(tǒng)計語言模型通過使用“向量”來運行,“向量”是一種多維矩陣,可以捕獲不同單詞、語法模式或故事主題的相關(guān)性(稱為“權(quán)重”)。在一般層面上,Anthropic 法院將訓(xùn)練描述為使用作者的作品來“迭代地映射每個文本片段和每個文本片段序列之間的統(tǒng)計關(guān)系,以便完成的法學(xué)碩士可以接收新的文本輸入并返回新的文本輸出,就好像它是人類閱讀提示和寫作響應(yīng)一樣。
版權(quán)法和合理使用
1976 年《版權(quán)法》背后的政策是通過鼓勵作者創(chuàng)作新的創(chuàng)意作品來促進科學(xué)和藝術(shù)的進步。1976 年《版權(quán)法》第 106 條授予版權(quán)所有者對列舉行為的排他性,例如復(fù)制、衍生作品的準(zhǔn)備和復(fù)制品的分發(fā)。它不授予對受版權(quán)保護作品的所有使用的壟斷權(quán)?!栋鏅?quán)法》第 107 條對侵犯版權(quán)所有者專有權(quán)的行為提供了“合理使用”的肯定辯護,其測試包括以下四個因素:
(1) 使用目的和性質(zhì),包括此類使用是商業(yè)性質(zhì)還是用于非營利性教育目的;
(2)受版權(quán)保護的作品的性質(zhì);
(3) 與整個受版權(quán)保護的作品相關(guān)的部分的數(shù)量和實質(zhì)性;和
(4) 使用對受版權(quán)保護作品的潛在市場或價值的影響。
合理使用是一種整體應(yīng)用的肯定性辯護,被描述為“公平的理性規(guī)則”。[3]法院通常認為第一個和第四個因素是最重要的,其中第四個因素尤為重要。
人類的決定
Anthropic 使用的材料包括從盜版來源下載的數(shù)百萬本書籍,以及 Anthropic 購買并掃描成帶有機器可讀文本的數(shù)字形式的數(shù)百萬本印刷書籍。這既是為了創(chuàng)建一個通用研究圖書館以供將來使用,也是為了培訓(xùn)克勞德。
Alsup 法官將他的分析分為使用書籍培訓(xùn)法學(xué)碩士和使用書籍建造中央圖書館。他認為,無論是用于培訓(xùn)還是將購買的書籍?dāng)?shù)字化建設(shè)中央圖書館都屬于合理使用,但使用盜版書籍建設(shè)中央圖書館則不屬于合理使用。他明確表示,簡易判決不會擴展到未來從中央圖書館制作的未用于培訓(xùn)法學(xué)碩士的副本。
關(guān)于第一個因素,Alsup 法官認為,使用受版權(quán)保護的作品來訓(xùn)練法學(xué)碩士生成新文本的目的和特征是“典型的變革性”。其用途不僅僅是記住和復(fù)制它所訓(xùn)練的作品,而是“就像一個渴望成為作家的讀者一樣”向他們學(xué)習(xí)并創(chuàng)造不同的東西。因此,第一個因素有利于培訓(xùn)副本的合理使用。
關(guān)于用于建造中央圖書館的副本,Alsup 法官將他的分析分為盜版副本和 Anthropic 購買印刷品然后進行數(shù)字轉(zhuǎn)換的副本。他認為,后一組有利于存儲和可搜索性,并且不會導(dǎo)致與第三方共享新副本,具有變革性。另一方面,Alsup 法官認為,盜版作品的使用“本質(zhì)上是不可挽回的侵權(quán)”,用于建立研究圖書館并不具有變革性。Alsup 法官區(qū)分了其他判決,包括無法購買或借閱副本、副本被轉(zhuǎn)換為明顯不同的形式或被告已經(jīng)擁有授權(quán)副本。
阿爾蘇普法官認為,第二個因素——受版權(quán)保護的作品的性質(zhì)——不利于合理使用,因為有爭議的作品涉及表達性內(nèi)容,這些內(nèi)容比事實作品受到版權(quán)法的更大保護。
Alsup 法官認為,第三個因素——所用作品的數(shù)量和實質(zhì)性——涉及評估受版權(quán)保護材料的數(shù)量與復(fù)制目的是否合理。分析的關(guān)鍵不在于復(fù)制了多少文本,而在于有多少文本可供公眾訪問。關(guān)于培訓(xùn),Alsup法官認為,雖然使用了整本書,但沒有指控該材料作為產(chǎn)出提供給公眾。他發(fā)現(xiàn)第三個因素有利于合理使用訓(xùn)練,因為 Anthropic 合理地需要大量數(shù)據(jù)來訓(xùn)練其法學(xué)碩士。關(guān)于建造中央圖書館,Alsup 法官認為,第三個因素有利于合理使用購買的副本,但反對合理使用盜版副本,因為 Anthropic 根本無權(quán)持有它們。
Alsup 法官認為,第四個因素——市場稀釋——也有利于在培訓(xùn)法學(xué)碩士方面合理使用。他認為,第四個因素側(cè)重于被質(zhì)疑的使用在多大程度上作為受版權(quán)保護作品的實際或潛在市場替代品。Alsup 法官指出,作者承認法學(xué)碩士沒有制作作者作品的精確副本或侵權(quán)仿冒品。相反,作者認為法學(xué)碩士將“導(dǎo)致與他們的作品競爭的作品爆炸式增長”。阿爾蘇普法官將原告的論點類比為“訓(xùn)練學(xué)童寫得好”也會導(dǎo)致競爭作品爆炸式增長的投訴,并認為這“不是與《版權(quán)法》有關(guān)的那種競爭或創(chuàng)造性的取代。該法案旨在推進原創(chuàng)作品的作者身份,而不是保護作者免受競爭“(引用 Sega Enterprises Ltd. v. Accolade, Inc., 977 F.2d 1510, 1523-24 (9th Cir. 1992))。Alsup 法官還駁回了原告的論點,即培訓(xùn)法學(xué)碩士會損害新興市場許可培訓(xùn)法學(xué)碩士的工作,認為《版權(quán)法》不賦予原告開發(fā)這樣一個可能發(fā)展的市場的權(quán)利。
Alsup 法官認為,第四個因素對于已轉(zhuǎn)換為數(shù)字形式的購買圖書館副本是中立的,并指出盜版作品的合理使用是中立的,因為盜版“明顯取代了對原告書籍的需求”。
Alsup 法官權(quán)衡了所有因素,因此批準(zhǔn)了 Anthropic 就合法購買的用于建立數(shù)字圖書館的培訓(xùn)副本和書籍的合理使用問題進行簡易判決的動議,但駁回了 Anthropic 對盜版副本的簡易判決,將決定保留審判。
元決策
Meta 的決定涉及 13 名作者對 Meta 提起訴訟,指控 Meta 從所謂的盜版作品“影子庫”下載他們的作品,并使用它們來訓(xùn)練 Meta 的法學(xué)碩士。這兩個決定之間的一個關(guān)鍵區(qū)別是 Chhabria 法官對第四個因素的主要權(quán)重,以及他在冗長的格言中表達的觀點,即在許多情況下,法學(xué)碩士的行為可能無法通過合理使用測試,因為法學(xué)碩士經(jīng)?!皹O大地破壞”他們訓(xùn)練的材料的市場。例如,Chhabria 法官推測,一個能夠制作無窮無盡的關(guān)于如何照顧花園的書籍的法學(xué)碩士可能會大大減少人類創(chuàng)作的花園書籍的市場。他表示,阿爾索普法官的 Anthropic 判決過于關(guān)注生成式人工智能的變革性質(zhì)(合理使用分析中的第一個因素),“同時忽略了對它可能對其接受訓(xùn)練的作品對市場造成的傷害的擔(dān)憂”(第四個因素)。因此,Chhabria 法官似乎支持基于世嘉的市場稀釋論點,Alsop 法官斷然拒絕了這一論點。美國版權(quán)局最近在其 2025 年 5 月的報告《版權(quán)與人工智能》中也支持了這一理論,盡管承認了“未知領(lǐng)域”。Chhabria 法官提出了一些與市場稀釋分析有關(guān)的問題,包括 Llama 是否有能力生成書籍,如果是,什么類型的書籍,它會對競爭產(chǎn)生什么影響,以及 Llama 可以使用他們的書籍進行培訓(xùn)與無法使用它們對原告書籍市場的影響。
兩位法官都駁回了關(guān)于第四個因素的另一個論點,即未經(jīng)授權(quán)的法學(xué)碩士培訓(xùn)損害了法學(xué)碩士培訓(xùn)書籍許可市場。兩家法院都認為,這不是《版權(quán)法》賦予原告開拓權(quán)的市場類型。
關(guān)于第一個因素,Chhabria 法官最終也同意 LLM 的使用具有變革性,這是發(fā)現(xiàn)第一個因素有利于合理使用的關(guān)鍵。但查布里亞法官在分析是否應(yīng)將法學(xué)碩士培訓(xùn)作為唯一的“用途”方面采取了與阿爾蘇普法官不同的方法。Chhabria 法官駁回了原告試圖將分析分為 Meta 下載書籍和將書籍用于 LLM 培訓(xùn)的嘗試,并表示必須根據(jù) LLM 培訓(xùn)的最終目的來考慮下載。Alsup 法官允許進行分叉分析,盡管是關(guān)于建立圖書館,而不是簡單地下載。使用這種分叉方法,Alsup 法官認為,在圖書館中使用盜版作品與合理使用相悖。另一方面,Chhabria 法官只是在他的單一分析中考慮了影子庫的使用,并駁回了其重要性。Chhabria 法官認為,雖然它與惡意問題有關(guān),并且如果 Meta 的下載是點對點文件共享的一部分,有助于使影子庫永久化,那么可能會產(chǎn)生重大影響,但這里的情況并非如此。
對法學(xué)碩士的未來發(fā)展有何影響?
人們清楚地認識到法學(xué)碩士的重大變革性,這是有利于合理使用的重要因素。未來決策的一個弱點是查布里亞法官對市場稀釋測試的認可。但應(yīng)根據(jù)他提出的相關(guān)問題來考慮這一贊同。重要的是,這是一個在很大程度上取決于市場性質(zhì)的調(diào)查。(目前)可以肯定地猜測,大多數(shù) LLM 用戶并沒有寫小說,因此競爭性的、LLM 生成的小說的“爆炸式增長”最終可能更多的是一個理論問題。但對于其他作品,例如新聞文章、傳記和其他可以由法學(xué)碩士快速集體制作的非小說類作品,查布里亞法官表示,可能存在市場稀釋問題。查布里亞法官的格言也適用于基于文本的作品之外。例如,對特定詞曲作者目錄進行法學(xué)碩士培訓(xùn)可能會產(chǎn)生稀釋該藝術(shù)家的音樂或與該藝術(shù)家獨特相關(guān)的任何流派的市場的作品,從而抑制該藝術(shù)家和其他人繼續(xù)在該領(lǐng)域創(chuàng)作音樂的積極性。如果市場稀釋理論獲得司法支持,適當(dāng)?shù)淖o欄可以限制市場稀釋索賠的風(fēng)險敞口。
這些決定的另一個要點是,應(yīng)避免在培訓(xùn)中使用盜版作品。在《Anthropic》中,這些書籍被盜版的事實嚴重影響了合理使用。在 Meta 案中,Chhabria 法官還保留了盜版作品的使用可能與合理使用分析相關(guān)的可能性。
第三個要點是,在這兩個決定中,重要的是法學(xué)碩士不能從培訓(xùn)材料中復(fù)制超過非常短的段落。因此,法學(xué)碩士應(yīng)繼續(xù)設(shè)置護欄,防止大量培訓(xùn)材料的記憶和反芻。例如,Chhabria 法官的裁決強調(diào)了 Llama 如何配置為從任何給定的訓(xùn)練源返回不超過 50 個單詞。
與此相關(guān)的一點是,這些案件不涉及產(chǎn)出。因此,這些決定沒有解決法學(xué)碩士未經(jīng)授權(quán)制作受版權(quán)保護作品的復(fù)制品的情況,無論是通過生成過程還是記憶。
如上所述,這些決定并沒有提供令人信服的理由來阻止生成式人工智能行業(yè),市場似乎也沒有這樣看待它們。持續(xù)增長將推動對支持這一增長所需的半導(dǎo)體產(chǎn)品的進一步需求。此外,即使在未來的案件中發(fā)現(xiàn)版權(quán)侵權(quán),考慮到可用的抗辯理由,例如基于非侵權(quán)用途的抗辯理由,芯片制造商承擔(dān)次要責(zé)任的風(fēng)險似乎微不足道。
評論