來(lái)源:科技日?qǐng)?bào) 時(shí)間:2024-02-09 12:58:09 作者:吳葉凡
近日,美國(guó)媒體《紐約時(shí)報(bào)》把OpenAI及其投資方微軟公司告上法庭,指控二者未經(jīng)授權(quán)就使用該媒體的數(shù)百萬(wàn)篇文章來(lái)訓(xùn)練人工智能大模型,要求被告銷毀相關(guān)數(shù)據(jù)并對(duì)媒體損失負(fù)責(zé)。今年1月,OpenAI對(duì)此做出辯訴,稱其訓(xùn)練是合理使用,且它們已提供了退出的選擇。
這一爭(zhēng)端引發(fā)了公眾對(duì)于大模型訓(xùn)練數(shù)據(jù)版權(quán)的關(guān)注。我國(guó)法律如何看待大模型訓(xùn)練數(shù)據(jù)的版權(quán)情況,如何對(duì)大模型使用數(shù)據(jù)進(jìn)行有效治理?2月初,記者采訪了相關(guān)專家。
訓(xùn)練數(shù)據(jù)面臨較高法律風(fēng)險(xiǎn)
大模型的訓(xùn)練數(shù)據(jù)究竟是哪兒來(lái)的?
去年,OpenAI首席執(zhí)行官薩姆·奧爾特曼接受采訪時(shí)表示,他們花費(fèi)了大量的精力整合不同來(lái)源的數(shù)據(jù),包括開(kāi)源信息數(shù)據(jù)庫(kù)、通過(guò)合作獲得的數(shù)據(jù)以及互聯(lián)網(wǎng)數(shù)據(jù)。但對(duì)于具體數(shù)據(jù)集的來(lái)源和細(xì)節(jié),OpenAI尚未公開(kāi)發(fā)布。
北京交通大學(xué)法學(xué)院副院長(zhǎng)鄭飛告訴記者,生成式人工智能的數(shù)據(jù)來(lái)源可以分為外界生產(chǎn)數(shù)據(jù)和自生產(chǎn)數(shù)據(jù)。其中,外界生產(chǎn)數(shù)據(jù)來(lái)源包括公共數(shù)據(jù)、數(shù)字圖書(shū)館、信息庫(kù)、網(wǎng)絡(luò)信息等,來(lái)源方式包括自行收集、公共下載、第三方購(gòu)買、爬取、模擬生產(chǎn)等。自生產(chǎn)數(shù)據(jù)則來(lái)源于生成式人工智能應(yīng)用時(shí)產(chǎn)生的相關(guān)數(shù)據(jù)。
鄭飛指出,使用外界生產(chǎn)的數(shù)據(jù)通常面臨著較高的法律風(fēng)險(xiǎn)。目前,OpenAI已經(jīng)被多次指控侵犯著作權(quán)。早在去年9月,美國(guó)作家協(xié)會(huì)就組織包括電視劇《權(quán)力的游戲》原著作者在內(nèi)的17位作家向法院提起訴訟,指控OpenAI在未經(jīng)許可的情況下批量復(fù)制了他們受版權(quán)保護(hù)的作品。
外界生產(chǎn)的數(shù)據(jù)中,還有一類是開(kāi)源數(shù)據(jù)。那么使用開(kāi)源數(shù)據(jù)是否意味著可以規(guī)避法律風(fēng)險(xiǎn)?
“開(kāi)源通常意味著免費(fèi),但免費(fèi)不意味著可以隨意使用?!痹卩嶏w看來(lái),開(kāi)源數(shù)據(jù)并不意味著可以完全規(guī)避風(fēng)險(xiǎn)?!霸S多開(kāi)源數(shù)據(jù)雖然不存在著作權(quán)財(cái)產(chǎn)權(quán)保護(hù)問(wèn)題,但會(huì)涉及署名權(quán)、修改權(quán)等人身權(quán)問(wèn)題。以開(kāi)源軟件為例,所有的開(kāi)源許可證均要求保留版權(quán)聲明,在版權(quán)聲明中列明開(kāi)源軟件的名稱、作者或版權(quán)所有者的姓名或名稱,以表明其身份?!编嶏w說(shuō)。
鄭飛進(jìn)一步解釋,按照我國(guó)著作權(quán)法的相關(guān)條款,如果使用者在使用開(kāi)源軟件時(shí)不保留版權(quán)聲明,不表明作者身份,違反許可證要求,就可能侵犯開(kāi)源軟件權(quán)利人的署名權(quán)。
北京智源人工智能研究院副院長(zhǎng)兼總工程師林詠華也曾表示:“用于AI大模型訓(xùn)練的開(kāi)源數(shù)據(jù)必須是合法地從公開(kāi)或可公開(kāi)獲得的資源中收集的數(shù)據(jù)?!?/p>
侵權(quán)認(rèn)定存在難點(diǎn)
針對(duì)生成式人工智能帶來(lái)的法律風(fēng)險(xiǎn),各國(guó)都在陸續(xù)出臺(tái)、完善相關(guān)的政策法規(guī)。我國(guó)在去年7月公布的《生成式人工智能服務(wù)管理暫行辦法》中,明確提到生成式人工智能服務(wù)提供者應(yīng)當(dāng)依法開(kāi)展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動(dòng),使用具有合法來(lái)源的數(shù)據(jù)和基礎(chǔ)模型;對(duì)于其中涉及知識(shí)產(chǎn)權(quán)的,不得侵害他人依法享有的知識(shí)產(chǎn)權(quán)。
與之配套的是我國(guó)關(guān)于知識(shí)產(chǎn)權(quán)的相關(guān)法律法規(guī)。鄭飛以著作權(quán)法為例向記者解釋:“當(dāng)前我國(guó)著作權(quán)法第24條以列舉形式規(guī)定了合理使用的12種具體情形,以及‘其他情形’的兜底條款。生成式人工智能數(shù)據(jù)訓(xùn)練難以歸屬為12種具體列明的合理使用情形。至于兜底條款,從司法實(shí)踐和法條解釋的角度來(lái)說(shuō),也缺乏判例和法理依據(jù)支持。因此,目前不侵害知識(shí)產(chǎn)權(quán)獲取數(shù)據(jù)的方式僅有授權(quán),包括單獨(dú)授權(quán)、集體授權(quán)、開(kāi)放授權(quán)等?!?/p>
當(dāng)前大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)規(guī)模已達(dá)千億甚至萬(wàn)億級(jí)別,但針對(duì)大模型訓(xùn)練數(shù)據(jù)侵犯知識(shí)產(chǎn)權(quán)的判例卻寥寥無(wú)幾。鄭飛表示,大模型是新生事物,針對(duì)大模型的侵權(quán)認(rèn)定仍存在較多難點(diǎn)。
首先是發(fā)現(xiàn)。生成式人工智能的侵權(quán)不同于傳統(tǒng)的網(wǎng)絡(luò)侵權(quán)。它生成的內(nèi)容是向特定用戶提供的,本身并不具有直接公開(kāi)性。因此,版權(quán)人如何發(fā)現(xiàn)自己的原創(chuàng)內(nèi)容可能被大模型訓(xùn)練所使用,是首要問(wèn)題。
其次是舉證。大模型輸出的內(nèi)容是經(jīng)過(guò)深度學(xué)習(xí)后輸出的內(nèi)容。這是機(jī)器內(nèi)部的行為,具有一定的隱蔽性。對(duì)于版權(quán)人來(lái)說(shuō),難點(diǎn)是如何找到有力的證據(jù),證明自己的原創(chuàng)內(nèi)容被運(yùn)用于訓(xùn)練AI。
最后是比例。相比于大模型訓(xùn)練數(shù)據(jù)侵犯知識(shí)產(chǎn)權(quán),人們更為熟知的是一些小說(shuō)作者抄襲其他書(shū)籍的案例。這些案例中,無(wú)一例外提到了抄襲內(nèi)容比例。因此,對(duì)大模型侵權(quán)的認(rèn)定,同樣也需要證明兩者之間的相似程度。
《紐約時(shí)報(bào)》訴OpenAI侵權(quán)案中,列出了多達(dá)100個(gè)證據(jù),證明ChatGPT輸出內(nèi)容與《紐約時(shí)報(bào)》新聞內(nèi)容高度相似。因此,這也被一些人認(rèn)為是“迄今為止指控生成式人工智能構(gòu)成侵權(quán)的最佳案例”。
利益平衡是關(guān)鍵
面對(duì)生成式人工智能帶來(lái)的種種侵權(quán)風(fēng)險(xiǎn),如何借助法律進(jìn)行有效治理?專家認(rèn)為,有幾種常見(jiàn)的治理途徑。
一是制定新的侵權(quán)責(zé)任法律。近年來(lái),人工智能侵權(quán)責(zé)任立法不斷被提及。事實(shí)上,不只人工智能沖擊著現(xiàn)有侵權(quán)責(zé)任法,區(qū)塊鏈、元宇宙也普遍面臨新的侵權(quán)責(zé)任問(wèn)題?!斑@一解決途徑也存在問(wèn)題。因?yàn)閷iT立法周期較長(zhǎng),難以配適日新月異的數(shù)字技術(shù)發(fā)展速度。”鄭飛說(shuō)。
二是創(chuàng)設(shè)單行監(jiān)管條例。鄭飛介紹,國(guó)家網(wǎng)信辦自創(chuàng)設(shè)以來(lái),就承擔(dān)著監(jiān)管職能,并不斷根據(jù)技術(shù)發(fā)展動(dòng)向及時(shí)進(jìn)行單行條例立法?!疤貏e是近年來(lái)在互聯(lián)網(wǎng)算法、深度合成、推薦算法等方面都發(fā)布了不同程度的監(jiān)管條例,為互聯(lián)網(wǎng)行業(yè)合規(guī)經(jīng)營(yíng)設(shè)置了主要依據(jù)?!?/p>
其他方式還包括,在已有的侵權(quán)責(zé)任法律體系中添加關(guān)于人工智能責(zé)任的相關(guān)條款,為人工智能設(shè)計(jì)者和提供者添加特殊的條款來(lái)進(jìn)行強(qiáng)調(diào)和補(bǔ)足;對(duì)現(xiàn)在已有的條款進(jìn)行解釋等?!熬虯I技術(shù)的發(fā)展水平及其當(dāng)下立法技術(shù)成熟度而言,采取‘傳統(tǒng)法律修正’模式是一種可行的方式?!编嶏w說(shuō)。
需要注意的是,對(duì)于新興技術(shù),法律治理的目的并不在于“禁止”,而是在于推動(dòng)技術(shù)的合規(guī)發(fā)展、合法使用。北京大學(xué)法學(xué)院教授張平曾指出,我國(guó)目前的生成式人工智能技術(shù)創(chuàng)新還處在初級(jí)階段,法律法規(guī)的制定應(yīng)當(dāng)給科技創(chuàng)新留有一定的發(fā)展空間,需要采取開(kāi)放包容的規(guī)范原則。
大模型想要更“聰明”,就必須通過(guò)大量數(shù)據(jù)來(lái)強(qiáng)化學(xué)習(xí)。因此,如何平衡各方利益、尋求合作共贏是關(guān)鍵。正如鄭飛所說(shuō):“人工智能訓(xùn)練數(shù)據(jù)合法性問(wèn)題,本質(zhì)上是個(gè)人利益與公共利益沖突的體現(xiàn)。如果缺少利益平衡原則,在利益分成時(shí)容易產(chǎn)生分歧?!?/p>
鄭飛提出,版權(quán)集團(tuán)或版權(quán)的集體管理組織可以通過(guò)集體授權(quán)的方式有效解決訓(xùn)練數(shù)據(jù)的權(quán)利許可問(wèn)題,也可以通過(guò)知識(shí)共享許可協(xié)議搭建開(kāi)源數(shù)據(jù)庫(kù),為大模型訓(xùn)練方提供權(quán)利許可便利。大模型訓(xùn)練方則可以為版權(quán)方提供更加優(yōu)質(zhì)、低費(fèi)用的生成式人工智能接入服務(wù),推動(dòng)出版行業(yè)升級(jí)。
目前,大模型方正在與出版行業(yè)積極尋求合作。有消息稱,OpenAI正在與數(shù)十家出版商洽談內(nèi)容授權(quán)協(xié)議。去年12月,OpenAI宣布與德國(guó)媒體巨頭阿克塞爾·施普林格達(dá)成了“里程碑式”合作。根據(jù)協(xié)議,OpenAI將付費(fèi)使用施普林格旗下出版物的內(nèi)容,施普林格將提供其媒體品牌的內(nèi)容,作為OpenAI大型語(yǔ)言模型的訓(xùn)練數(shù)據(jù)。
責(zé)任編輯:張薇