來源:人民郵電報 時間:2024-01-11 09:46:06 作者:
Midjourney制作的圖像與知名電影和視頻游戲中的鏡頭幾乎相同(左側(cè)為原作,右側(cè)為Midjourney生成圖片)。
(圖片來源:IEEE Spectrum)
這些圖像均由Midjourney制作生成,提示詞中均包含“screencap”。
(圖片來源:IEEE Spectrum)
大語言模型(LLM)在多大程度上“記住”了其訓(xùn)練輸入內(nèi)容是一直以來廣受關(guān)注的問題。而最近的實證研究表明,大語言模型在某些情況下的確可以重現(xiàn)或者生成只包含細小差別的訓(xùn)練集內(nèi)初始文本。
例如,Milad Nasr及其同事在2023年發(fā)表的一篇論文表明,大語言模型可能會在提示詞的引導(dǎo)下泄露個人信息,比如電子郵箱地址和電話號碼等。來自谷歌Deepmind的Nicholas Carlini也在最近的研究中發(fā)現(xiàn),參數(shù)規(guī)模較大的大語言模型有時會逐字逐句照搬訓(xùn)練時“見過”的大段文本。
前不久,《紐約時報》向美國曼哈頓聯(lián)邦法院提起訴訟,指控OpenAI涉嫌違規(guī)使用其內(nèi)容用于人工智能開發(fā)的事件引起了社區(qū)極大的關(guān)注與討論。《紐約時報》稱其“非法使用”“數(shù)百萬篇”受版權(quán)保護的文章來訓(xùn)練生成式人工智能模型,并要求賠償“數(shù)十億美元”。
對此,OpenAI知識產(chǎn)權(quán)和內(nèi)容首席Tom Rubin表示,公司近期與數(shù)十家出版商展開了有關(guān)許可協(xié)議的談判:“我們正處于多場談判中,正在與多家出版商進行討論。他們十分活躍積極,這些談判進展良好?!?/p>
自生成式AI應(yīng)用成為熱門話題以來,版權(quán)問題逐漸凸顯。我們把復(fù)制訓(xùn)練數(shù)據(jù)的輸出稱為“抄襲輸出”。此類輸出的存在和特定訴訟結(jié)果很可能決定生成式AI的未來經(jīng)濟效益和社會影響。
如何判定LLM的輸出內(nèi)容是否屬于對訓(xùn)練內(nèi)容的抄襲?這是一個難以精確回答的問題。其中一個原因是LLM就像一個“黑盒子”——我們并不完全了解輸入(訓(xùn)練數(shù)據(jù))和輸出之間的關(guān)系。更重要的是,大語言模型的輸出可能從此刻到下一刻發(fā)生難以預(yù)測的變化,且抄襲輸出的程度可能由模型大小和訓(xùn)練集的具體性質(zhì)決定。也正是由于LLM的這種“黑盒子”特性(對于開發(fā)者自己也是如此,無論是否開源),關(guān)于抄襲輸出的問題只能通過實驗的方式來研究解決。
值得注意的是,由于抄襲輸出的存在,引發(fā)了一系列問題,包括技術(shù)問題(可以采取哪些措施來避免抄襲輸出)、社會學(xué)問題(新聞業(yè)會因此受到哪些影響)、法律問題(這些輸出是否涉及版權(quán)侵犯)以及實際問題(當用戶使用LLM生成的某些內(nèi)容時,是否需要擔心版權(quán)問題)。
抄襲輸出是否僅存在于文字生成領(lǐng)域,文生圖模型是否也會基于受版權(quán)保護的圖片產(chǎn)生抄襲輸出?
從Midjourney v6“alpha”版摘錄的部分示例表明,只要提供與商業(yè)電影相關(guān)的簡短提示詞,Midjourney的最新版本就會生成和原作高度相似的抄襲輸出。(見下圖左)
如果提示詞中不包含電影名稱、角色、演員等信息,Midjourney應(yīng)該不會產(chǎn)生抄襲輸出吧?經(jīng)過多番嘗試,測試人員最終發(fā)現(xiàn),在提示詞包含“screencap(截圖)”時,即使沒有輸入任何電影/游戲的角色信息,也會生成明顯的侵權(quán)內(nèi)容。(見下圖右)
測試人員認為,目前的實驗結(jié)果表明,Midjourney存在違規(guī)使用受版權(quán)保護的素材的行為,從而引發(fā)抄襲輸出的問題。即使提示詞中沒有要求模型生成侵權(quán)內(nèi)容,用戶仍然可能面臨版權(quán)侵權(quán)索賠的風(fēng)險。這一發(fā)現(xiàn)并非偶然,事實上,Midjourney最近已經(jīng)因為類似的問題陷入法律糾紛。Midjourney最近收到了4700多名藝術(shù)家的聯(lián)合起訴,因為Midjourney在未經(jīng)同意的情況下使用了他們的作品用于訓(xùn)練AI。
目前尚不清楚Midjourney的訓(xùn)練數(shù)據(jù)中包含多少未經(jīng)許可使用的版權(quán)材料,該公司對于其原始訓(xùn)練數(shù)據(jù)以及哪些數(shù)據(jù)獲得了相應(yīng)使用許可都尚未公開。如果未獲得原素材許可,可能會使Midjourney面臨來自電影工作室、視頻游戲發(fā)行商、演員等的大量訴訟。
與Midjourney一樣,OpenAI的文生圖大模型DALL·E 3似乎也借鑒了大量受版權(quán)保護的素材,即使提示詞中沒有要求模型生成侵權(quán)內(nèi)容,DALL·E 3仍能夠創(chuàng)建與原作高度相似的復(fù)制品。
解決生成式AI大模型的抄襲輸出問題有多難?從訓(xùn)練數(shù)據(jù)集的角度來看,如果發(fā)現(xiàn)有受版權(quán)保護的材料被用于訓(xùn)練,就需要從數(shù)據(jù)集中刪除這些材料。然而,不同于在數(shù)據(jù)庫中簡單地刪除某項數(shù)據(jù),從訓(xùn)練數(shù)據(jù)集中刪除特定受版權(quán)保護的材料并不僅僅是簡單地移除數(shù)據(jù)。由于AI大模型的訓(xùn)練依賴于大規(guī)模的數(shù)據(jù)集,刪除部分數(shù)據(jù)集可能需要對模型進行重新訓(xùn)練,以確保模型的準確性和有效性,而這一過程需要消耗大量的時間和計算資源。此外,大模型在生成內(nèi)容時往往會借鑒和參考已有的知識,這使得判斷其輸出是否侵犯版權(quán)變得更加復(fù)雜。
然而,盡管解決抄襲輸出問題并不容易,但一些方法和策略仍然值得嘗試。首先,開發(fā)者可以通過改進模型的訓(xùn)練方法和算法,使其更加注重原創(chuàng)性和多樣性。這可以通過引入更加先進的生成模型、使用更加全面的數(shù)據(jù)集或者改進模型的優(yōu)化目標來實現(xiàn)。
其次,引入版權(quán)保護機制也是一種有效的方法。這種機制可以在AI生成內(nèi)容時自動檢測和防止抄襲,從而確保其輸出的合法性和道德性。這可能需要開發(fā)專門的技術(shù)和工具,以實現(xiàn)對互聯(lián)網(wǎng)上信息的實時監(jiān)控和檢測。
最后,用戶在使用生成式AI時也需要提高自身的版權(quán)意識。用戶應(yīng)該尊重原創(chuàng)者的知識產(chǎn)權(quán),在使用AI生成的內(nèi)容時注明來源和版權(quán)信息。同時,用戶也應(yīng)對AI的輸出進行合理的評估和審查,避免使用AI生成的侵權(quán)內(nèi)容。
(Gary Marcus & Reid Southen/文 吳雙/譯)
責任編輯:張薇