生成式AI的抄襲輸出問題值得關(guān)注

來源：人民郵電報時間：2024-01-11 09:46:06 作者：

Midjourney制作的圖像與知名電影和視頻游戲中的鏡頭幾乎相同（左側(cè)為原作，右側(cè)為Midjourney生成圖片）。

（圖片來源：IEEE Spectrum）

這些圖像均由Midjourney制作生成，提示詞中均包含“screencap”。

（圖片來源：IEEE Spectrum）

　　大語言模型（LLM）在多大程度上“記住”了其訓(xùn)練輸入內(nèi)容是一直以來廣受關(guān)注的問題。而最近的實證研究表明，大語言模型在某些情況下的確可以重現(xiàn)或者生成只包含細小差別的訓(xùn)練集內(nèi)初始文本。

　　例如，Milad Nasr及其同事在2023年發(fā)表的一篇論文表明，大語言模型可能會在提示詞的引導(dǎo)下泄露個人信息，比如電子郵箱地址和電話號碼等。來自谷歌Deepmind的Nicholas Carlini也在最近的研究中發(fā)現(xiàn)，參數(shù)規(guī)模較大的大語言模型有時會逐字逐句照搬訓(xùn)練時“見過”的大段文本。

　　前不久，《紐約時報》向美國曼哈頓聯(lián)邦法院提起訴訟，指控OpenAI涉嫌違規(guī)使用其內(nèi)容用于人工智能開發(fā)的事件引起了社區(qū)極大的關(guān)注與討論。《紐約時報》稱其“非法使用”“數(shù)百萬篇”受版權(quán)保護的文章來訓(xùn)練生成式人工智能模型，并要求賠償“數(shù)十億美元”。

　　對此，OpenAI知識產(chǎn)權(quán)和內(nèi)容首席Tom Rubin表示，公司近期與數(shù)十家出版商展開了有關(guān)許可協(xié)議的談判：“我們正處于多場談判中，正在與多家出版商進行討論。他們十分活躍積極，這些談判進展良好?！?/p>

　　自生成式AI應(yīng)用成為熱門話題以來，版權(quán)問題逐漸凸顯。我們把復(fù)制訓(xùn)練數(shù)據(jù)的輸出稱為“抄襲輸出”。此類輸出的存在和特定訴訟結(jié)果很可能決定生成式AI的未來經(jīng)濟效益和社會影響。

　　如何判定LLM的輸出內(nèi)容是否屬于對訓(xùn)練內(nèi)容的抄襲？這是一個難以精確回答的問題。其中一個原因是LLM就像一個“黑盒子”——我們并不完全了解輸入（訓(xùn)練數(shù)據(jù)）和輸出之間的關(guān)系。更重要的是，大語言模型的輸出可能從此刻到下一刻發(fā)生難以預(yù)測的變化，且抄襲輸出的程度可能由模型大小和訓(xùn)練集的具體性質(zhì)決定。也正是由于LLM的這種“黑盒子”特性（對于開發(fā)者自己也是如此，無論是否開源），關(guān)于抄襲輸出的問題只能通過實驗的方式來研究解決。

　　值得注意的是，由于抄襲輸出的存在，引發(fā)了一系列問題，包括技術(shù)問題（可以采取哪些措施來避免抄襲輸出）、社會學(xué)問題（新聞業(yè)會因此受到哪些影響）、法律問題（這些輸出是否涉及版權(quán)侵犯）以及實際問題（當用戶使用LLM生成的某些內(nèi)容時，是否需要擔心版權(quán)問題）。

　　抄襲輸出是否僅存在于文字生成領(lǐng)域，文生圖模型是否也會基于受版權(quán)保護的圖片產(chǎn)生抄襲輸出？

　　從Midjourney v6“alpha”版摘錄的部分示例表明，只要提供與商業(yè)電影相關(guān)的簡短提示詞，Midjourney的最新版本就會生成和原作高度相似的抄襲輸出。（見下圖左）

　　如果提示詞中不包含電影名稱、角色、演員等信息，Midjourney應(yīng)該不會產(chǎn)生抄襲輸出吧？經(jīng)過多番嘗試，測試人員最終發(fā)現(xiàn)，在提示詞包含“screencap（截圖）”時，即使沒有輸入任何電影／游戲的角色信息，也會生成明顯的侵權(quán)內(nèi)容。（見下圖右）

　　測試人員認為，目前的實驗結(jié)果表明，Midjourney存在違規(guī)使用受版權(quán)保護的素材的行為，從而引發(fā)抄襲輸出的問題。即使提示詞中沒有要求模型生成侵權(quán)內(nèi)容，用戶仍然可能面臨版權(quán)侵權(quán)索賠的風(fēng)險。這一發(fā)現(xiàn)并非偶然，事實上，Midjourney最近已經(jīng)因為類似的問題陷入法律糾紛。Midjourney最近收到了4700多名藝術(shù)家的聯(lián)合起訴，因為Midjourney在未經(jīng)同意的情況下使用了他們的作品用于訓(xùn)練AI。

　　目前尚不清楚Midjourney的訓(xùn)練數(shù)據(jù)中包含多少未經(jīng)許可使用的版權(quán)材料，該公司對于其原始訓(xùn)練數(shù)據(jù)以及哪些數(shù)據(jù)獲得了相應(yīng)使用許可都尚未公開。如果未獲得原素材許可，可能會使Midjourney面臨來自電影工作室、視頻游戲發(fā)行商、演員等的大量訴訟。

　　與Midjourney一樣，OpenAI的文生圖大模型DALL·E 3似乎也借鑒了大量受版權(quán)保護的素材，即使提示詞中沒有要求模型生成侵權(quán)內(nèi)容，DALL·E 3仍能夠創(chuàng)建與原作高度相似的復(fù)制品。

　　解決生成式AI大模型的抄襲輸出問題有多難？從訓(xùn)練數(shù)據(jù)集的角度來看，如果發(fā)現(xiàn)有受版權(quán)保護的材料被用于訓(xùn)練，就需要從數(shù)據(jù)集中刪除這些材料。然而，不同于在數(shù)據(jù)庫中簡單地刪除某項數(shù)據(jù)，從訓(xùn)練數(shù)據(jù)集中刪除特定受版權(quán)保護的材料并不僅僅是簡單地移除數(shù)據(jù)。由于AI大模型的訓(xùn)練依賴于大規(guī)模的數(shù)據(jù)集，刪除部分數(shù)據(jù)集可能需要對模型進行重新訓(xùn)練，以確保模型的準確性和有效性，而這一過程需要消耗大量的時間和計算資源。此外，大模型在生成內(nèi)容時往往會借鑒和參考已有的知識，這使得判斷其輸出是否侵犯版權(quán)變得更加復(fù)雜。

　　然而，盡管解決抄襲輸出問題并不容易，但一些方法和策略仍然值得嘗試。首先，開發(fā)者可以通過改進模型的訓(xùn)練方法和算法，使其更加注重原創(chuàng)性和多樣性。這可以通過引入更加先進的生成模型、使用更加全面的數(shù)據(jù)集或者改進模型的優(yōu)化目標來實現(xiàn)。

　　其次，引入版權(quán)保護機制也是一種有效的方法。這種機制可以在AI生成內(nèi)容時自動檢測和防止抄襲，從而確保其輸出的合法性和道德性。這可能需要開發(fā)專門的技術(shù)和工具，以實現(xiàn)對互聯(lián)網(wǎng)上信息的實時監(jiān)控和檢測。

　　最后，用戶在使用生成式AI時也需要提高自身的版權(quán)意識。用戶應(yīng)該尊重原創(chuàng)者的知識產(chǎn)權(quán)，在使用AI生成的內(nèi)容時注明來源和版權(quán)信息。同時，用戶也應(yīng)對AI的輸出進行合理的評估和審查，避免使用AI生成的侵權(quán)內(nèi)容。

　　（Gary Marcus & Reid Southen／文　吳雙／譯）

責任編輯：張薇

精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

生成式AI的抄襲輸出問題值得關(guān)注