“投喂”大模型如何規(guī)范授權(quán)

來(lái)源：科技日?qǐng)?bào) 時(shí)間：2024-02-09 12:58:09 作者：吳葉凡

　　近日，美國(guó)媒體《紐約時(shí)報(bào)》把OpenAI及其投資方微軟公司告上法庭，指控二者未經(jīng)授權(quán)就使用該媒體的數(shù)百萬(wàn)篇文章來(lái)訓(xùn)練人工智能大模型，要求被告銷毀相關(guān)數(shù)據(jù)并對(duì)媒體損失負(fù)責(zé)。今年1月，OpenAI對(duì)此做出辯訴，稱其訓(xùn)練是合理使用，且它們已提供了退出的選擇。

　　這一爭(zhēng)端引發(fā)了公眾對(duì)于大模型訓(xùn)練數(shù)據(jù)版權(quán)的關(guān)注。我國(guó)法律如何看待大模型訓(xùn)練數(shù)據(jù)的版權(quán)情況，如何對(duì)大模型使用數(shù)據(jù)進(jìn)行有效治理？2月初，記者采訪了相關(guān)專家。

　　訓(xùn)練數(shù)據(jù)面臨較高法律風(fēng)險(xiǎn)

　　大模型的訓(xùn)練數(shù)據(jù)究竟是哪兒來(lái)的？

　　去年，OpenAI首席執(zhí)行官薩姆·奧爾特曼接受采訪時(shí)表示，他們花費(fèi)了大量的精力整合不同來(lái)源的數(shù)據(jù)，包括開(kāi)源信息數(shù)據(jù)庫(kù)、通過(guò)合作獲得的數(shù)據(jù)以及互聯(lián)網(wǎng)數(shù)據(jù)。但對(duì)于具體數(shù)據(jù)集的來(lái)源和細(xì)節(jié)，OpenAI尚未公開(kāi)發(fā)布。

　　北京交通大學(xué)法學(xué)院副院長(zhǎng)鄭飛告訴記者，生成式人工智能的數(shù)據(jù)來(lái)源可以分為外界生產(chǎn)數(shù)據(jù)和自生產(chǎn)數(shù)據(jù)。其中，外界生產(chǎn)數(shù)據(jù)來(lái)源包括公共數(shù)據(jù)、數(shù)字圖書(shū)館、信息庫(kù)、網(wǎng)絡(luò)信息等，來(lái)源方式包括自行收集、公共下載、第三方購(gòu)買、爬取、模擬生產(chǎn)等。自生產(chǎn)數(shù)據(jù)則來(lái)源于生成式人工智能應(yīng)用時(shí)產(chǎn)生的相關(guān)數(shù)據(jù)。

　　鄭飛指出，使用外界生產(chǎn)的數(shù)據(jù)通常面臨著較高的法律風(fēng)險(xiǎn)。目前，OpenAI已經(jīng)被多次指控侵犯著作權(quán)。早在去年9月，美國(guó)作家協(xié)會(huì)就組織包括電視劇《權(quán)力的游戲》原著作者在內(nèi)的17位作家向法院提起訴訟，指控OpenAI在未經(jīng)許可的情況下批量復(fù)制了他們受版權(quán)保護(hù)的作品。

　　外界生產(chǎn)的數(shù)據(jù)中，還有一類是開(kāi)源數(shù)據(jù)。那么使用開(kāi)源數(shù)據(jù)是否意味著可以規(guī)避法律風(fēng)險(xiǎn)？

　　“開(kāi)源通常意味著免費(fèi)，但免費(fèi)不意味著可以隨意使用?！痹卩嶏w看來(lái)，開(kāi)源數(shù)據(jù)并不意味著可以完全規(guī)避風(fēng)險(xiǎn)?！霸S多開(kāi)源數(shù)據(jù)雖然不存在著作權(quán)財(cái)產(chǎn)權(quán)保護(hù)問(wèn)題，但會(huì)涉及署名權(quán)、修改權(quán)等人身權(quán)問(wèn)題。以開(kāi)源軟件為例，所有的開(kāi)源許可證均要求保留版權(quán)聲明，在版權(quán)聲明中列明開(kāi)源軟件的名稱、作者或版權(quán)所有者的姓名或名稱，以表明其身份?！编嶏w說(shuō)。

　　鄭飛進(jìn)一步解釋，按照我國(guó)著作權(quán)法的相關(guān)條款，如果使用者在使用開(kāi)源軟件時(shí)不保留版權(quán)聲明，不表明作者身份，違反許可證要求，就可能侵犯開(kāi)源軟件權(quán)利人的署名權(quán)。

　　北京智源人工智能研究院副院長(zhǎng)兼總工程師林詠華也曾表示：“用于AI大模型訓(xùn)練的開(kāi)源數(shù)據(jù)必須是合法地從公開(kāi)或可公開(kāi)獲得的資源中收集的數(shù)據(jù)?！?/p>

　　侵權(quán)認(rèn)定存在難點(diǎn)

　　針對(duì)生成式人工智能帶來(lái)的法律風(fēng)險(xiǎn)，各國(guó)都在陸續(xù)出臺(tái)、完善相關(guān)的政策法規(guī)。我國(guó)在去年7月公布的《生成式人工智能服務(wù)管理暫行辦法》中，明確提到生成式人工智能服務(wù)提供者應(yīng)當(dāng)依法開(kāi)展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動(dòng)，使用具有合法來(lái)源的數(shù)據(jù)和基礎(chǔ)模型；對(duì)于其中涉及知識(shí)產(chǎn)權(quán)的，不得侵害他人依法享有的知識(shí)產(chǎn)權(quán)。

　　與之配套的是我國(guó)關(guān)于知識(shí)產(chǎn)權(quán)的相關(guān)法律法規(guī)。鄭飛以著作權(quán)法為例向記者解釋：“當(dāng)前我國(guó)著作權(quán)法第24條以列舉形式規(guī)定了合理使用的12種具體情形，以及‘其他情形’的兜底條款。生成式人工智能數(shù)據(jù)訓(xùn)練難以歸屬為12種具體列明的合理使用情形。至于兜底條款，從司法實(shí)踐和法條解釋的角度來(lái)說(shuō)，也缺乏判例和法理依據(jù)支持。因此，目前不侵害知識(shí)產(chǎn)權(quán)獲取數(shù)據(jù)的方式僅有授權(quán)，包括單獨(dú)授權(quán)、集體授權(quán)、開(kāi)放授權(quán)等?！?/p>

　　當(dāng)前大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)規(guī)模已達(dá)千億甚至萬(wàn)億級(jí)別，但針對(duì)大模型訓(xùn)練數(shù)據(jù)侵犯知識(shí)產(chǎn)權(quán)的判例卻寥寥無(wú)幾。鄭飛表示，大模型是新生事物，針對(duì)大模型的侵權(quán)認(rèn)定仍存在較多難點(diǎn)。

　　首先是發(fā)現(xiàn)。生成式人工智能的侵權(quán)不同于傳統(tǒng)的網(wǎng)絡(luò)侵權(quán)。它生成的內(nèi)容是向特定用戶提供的，本身并不具有直接公開(kāi)性。因此，版權(quán)人如何發(fā)現(xiàn)自己的原創(chuàng)內(nèi)容可能被大模型訓(xùn)練所使用，是首要問(wèn)題。

　　其次是舉證。大模型輸出的內(nèi)容是經(jīng)過(guò)深度學(xué)習(xí)后輸出的內(nèi)容。這是機(jī)器內(nèi)部的行為，具有一定的隱蔽性。對(duì)于版權(quán)人來(lái)說(shuō)，難點(diǎn)是如何找到有力的證據(jù)，證明自己的原創(chuàng)內(nèi)容被運(yùn)用于訓(xùn)練AI。

　　最后是比例。相比于大模型訓(xùn)練數(shù)據(jù)侵犯知識(shí)產(chǎn)權(quán)，人們更為熟知的是一些小說(shuō)作者抄襲其他書(shū)籍的案例。這些案例中，無(wú)一例外提到了抄襲內(nèi)容比例。因此，對(duì)大模型侵權(quán)的認(rèn)定，同樣也需要證明兩者之間的相似程度。

　　《紐約時(shí)報(bào)》訴OpenAI侵權(quán)案中，列出了多達(dá)100個(gè)證據(jù)，證明ChatGPT輸出內(nèi)容與《紐約時(shí)報(bào)》新聞內(nèi)容高度相似。因此，這也被一些人認(rèn)為是“迄今為止指控生成式人工智能構(gòu)成侵權(quán)的最佳案例”。

　　利益平衡是關(guān)鍵

　　面對(duì)生成式人工智能帶來(lái)的種種侵權(quán)風(fēng)險(xiǎn)，如何借助法律進(jìn)行有效治理？專家認(rèn)為，有幾種常見(jiàn)的治理途徑。

　　一是制定新的侵權(quán)責(zé)任法律。近年來(lái)，人工智能侵權(quán)責(zé)任立法不斷被提及。事實(shí)上，不只人工智能沖擊著現(xiàn)有侵權(quán)責(zé)任法，區(qū)塊鏈、元宇宙也普遍面臨新的侵權(quán)責(zé)任問(wèn)題?！斑@一解決途徑也存在問(wèn)題。因?yàn)閷ｉT立法周期較長(zhǎng)，難以配適日新月異的數(shù)字技術(shù)發(fā)展速度。”鄭飛說(shuō)。

　　二是創(chuàng)設(shè)單行監(jiān)管條例。鄭飛介紹，國(guó)家網(wǎng)信辦自創(chuàng)設(shè)以來(lái)，就承擔(dān)著監(jiān)管職能，并不斷根據(jù)技術(shù)發(fā)展動(dòng)向及時(shí)進(jìn)行單行條例立法?！疤貏e是近年來(lái)在互聯(lián)網(wǎng)算法、深度合成、推薦算法等方面都發(fā)布了不同程度的監(jiān)管條例，為互聯(lián)網(wǎng)行業(yè)合規(guī)經(jīng)營(yíng)設(shè)置了主要依據(jù)?！?/p>

　　其他方式還包括，在已有的侵權(quán)責(zé)任法律體系中添加關(guān)于人工智能責(zé)任的相關(guān)條款，為人工智能設(shè)計(jì)者和提供者添加特殊的條款來(lái)進(jìn)行強(qiáng)調(diào)和補(bǔ)足；對(duì)現(xiàn)在已有的條款進(jìn)行解釋等?！熬虯I技術(shù)的發(fā)展水平及其當(dāng)下立法技術(shù)成熟度而言，采取‘傳統(tǒng)法律修正’模式是一種可行的方式?！编嶏w說(shuō)。

　　需要注意的是，對(duì)于新興技術(shù)，法律治理的目的并不在于“禁止”，而是在于推動(dòng)技術(shù)的合規(guī)發(fā)展、合法使用。北京大學(xué)法學(xué)院教授張平曾指出，我國(guó)目前的生成式人工智能技術(shù)創(chuàng)新還處在初級(jí)階段，法律法規(guī)的制定應(yīng)當(dāng)給科技創(chuàng)新留有一定的發(fā)展空間，需要采取開(kāi)放包容的規(guī)范原則。

　　大模型想要更“聰明”，就必須通過(guò)大量數(shù)據(jù)來(lái)強(qiáng)化學(xué)習(xí)。因此，如何平衡各方利益、尋求合作共贏是關(guān)鍵。正如鄭飛所說(shuō)：“人工智能訓(xùn)練數(shù)據(jù)合法性問(wèn)題，本質(zhì)上是個(gè)人利益與公共利益沖突的體現(xiàn)。如果缺少利益平衡原則，在利益分成時(shí)容易產(chǎn)生分歧?！?/p>

　　鄭飛提出，版權(quán)集團(tuán)或版權(quán)的集體管理組織可以通過(guò)集體授權(quán)的方式有效解決訓(xùn)練數(shù)據(jù)的權(quán)利許可問(wèn)題，也可以通過(guò)知識(shí)共享許可協(xié)議搭建開(kāi)源數(shù)據(jù)庫(kù)，為大模型訓(xùn)練方提供權(quán)利許可便利。大模型訓(xùn)練方則可以為版權(quán)方提供更加優(yōu)質(zhì)、低費(fèi)用的生成式人工智能接入服務(wù)，推動(dòng)出版行業(yè)升級(jí)。

　　目前，大模型方正在與出版行業(yè)積極尋求合作。有消息稱，OpenAI正在與數(shù)十家出版商洽談內(nèi)容授權(quán)協(xié)議。去年12月，OpenAI宣布與德國(guó)媒體巨頭阿克塞爾·施普林格達(dá)成了“里程碑式”合作。根據(jù)協(xié)議，OpenAI將付費(fèi)使用施普林格旗下出版物的內(nèi)容，施普林格將提供其媒體品牌的內(nèi)容，作為OpenAI大型語(yǔ)言模型的訓(xùn)練數(shù)據(jù)。

責(zé)任編輯：張薇

精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

“投喂”大模型如何規(guī)范授權(quán)