來源:數(shù)據(jù)觀綜合 時(shí)間:2023-08-15 16:21:55 作者:
近日,世紀(jì)天鴻投資的AI輔助寫作產(chǎn)品筆神作文發(fā)布聲明稱,已于8月4日決定不再對(duì)學(xué)而思,針對(duì)相關(guān)數(shù)據(jù)調(diào)取事件發(fā)起訴訟。
筆神作文表示,經(jīng)與學(xué)而思深入調(diào)查并坦誠(chéng)溝通后,對(duì)雙方有爭(zhēng)議條款已達(dá)成一致,雙方已消除誤會(huì),并將繼續(xù)深化合作,共同推進(jìn)AI技術(shù)在教育領(lǐng)域的探索。
6年成果,被爬取200+萬次,索賠1元
筆神作文將之稱為“AI大模型數(shù)據(jù)被盜第一案”。此前6月13日下午,筆神作文通過自己的微信公眾號(hào)、微博和第三方媒體發(fā)布消息稱,遭到有多年合作關(guān)系的“學(xué)而思”背刺,指控學(xué)而思“盜取了我們的作文庫存”,并稱4月數(shù)據(jù)被竊取,學(xué)而思5月就公布進(jìn)行數(shù)學(xué)大模型-MathGPT 的研發(fā)使用,“未免也太過于‘巧合’了”。
對(duì)此,學(xué)而思方面則發(fā)布聲明回應(yīng)稱,該公司對(duì)筆神作文接口的調(diào)用,屬于雙方合同約定的正常合作范圍,對(duì)筆神素材內(nèi)容的使用均符合合同要求,并未用于合同以外的任何用途。
筆神作文在文章中表示,“我們的案件可能將會(huì)成為‘AI大模型數(shù)據(jù)被盜第一案’。”并表達(dá)了,要求公開致歉、刪除非法獲取的數(shù)據(jù)并中止應(yīng)用、求償1元的訴求。
對(duì)此,筆神作文解釋道:“數(shù)據(jù)是有價(jià)值的,但我們心血更是無價(jià),索賠 1 元是因?yàn)楣焦⒉荒苡媒疱X衡量,我們希望通過訴訟告訴社會(huì)這種行為是錯(cuò)誤的。人工智能行業(yè)的發(fā)展,靠的是共同創(chuàng)造,而非覬覦和剽竊他人的成果。”
公開資料顯示,筆神作文是北京一筆兩劃科技有限公司開發(fā)的智能寫作平臺(tái),擁有語文作文寫前指導(dǎo)、作文批改評(píng)測(cè)等服務(wù)。
筆神作文在文章中稱,“在過去筆神作文成立的6年時(shí)間里,我們每個(gè)月都會(huì)收到30萬篇作文投稿和超過四十萬的點(diǎn)贊??偣卜e累了超過500萬篇作文素材,月批改量超3萬篇?!钡?月一個(gè)周末,這些數(shù)據(jù)資源被爬蟲爬取了超過兩百萬次。
文章中透露,筆神作文與學(xué)而思是合作關(guān)系,“雖然我們的產(chǎn)品已經(jīng)設(shè)置了完備的數(shù)據(jù)安全機(jī)制,然而學(xué)而思卻利用了我們的這份信任,利用了我們對(duì)合作伙伴的接口不設(shè)防?!?/p>
筆神作文表示,在數(shù)據(jù)竊取事件發(fā)生后,筆神作文找學(xué)而思進(jìn)行求證時(shí),對(duì)方直接承認(rèn),是他們的算法組在爬取數(shù)據(jù)并作為己用。
此前,好未來公司 (三體云聯(lián)公司關(guān)聯(lián)公司,前身學(xué)而思) 在5月5日的官方微信公眾號(hào)發(fā)文表示: “學(xué)而思正在進(jìn)行數(shù)學(xué)大模型-MathGPT 的研發(fā)使用,學(xué)而思學(xué)習(xí)機(jī)近期將上線一款‘AI助手’,涵蓋作文助手......等相關(guān)功能?!?/p>
筆神作文方面直言,“4月我們的「作文庫」數(shù)據(jù)被竊取,5月‘學(xué)而思’的「作文AI助手」新產(chǎn)品就即將上線了,這樣‘巧合’未免也太過于‘巧合’了?!?/p>
筆神作文還稱,團(tuán)隊(duì)多次向?qū)W而思發(fā)出律師函,但對(duì)方始終沒有實(shí)質(zhì)性答復(fù)。
不久后,針對(duì)筆神作文的這篇“征討檄文”,學(xué)而思發(fā)布聲明否認(rèn)了筆神作文的說法,并稱“對(duì)方在公開聲明中提及學(xué)而思正在研發(fā)的數(shù)學(xué)大模型MathGPT以及學(xué)而思學(xué)習(xí)機(jī)‘作文AI助手’,并主觀揣測(cè)我方使用其數(shù)據(jù)用于兩款產(chǎn)品的訓(xùn)練和研發(fā),這與事實(shí)嚴(yán)重不符”。
學(xué)而思從三個(gè)方面回應(yīng)了筆神作文:
1、學(xué)而思和筆神作文于2020年12月開始合作,合作協(xié)議明確約定:筆神作文為學(xué)而思提供“筆神作文范文素材服務(wù)接口”,用于學(xué)而思相關(guān)服務(wù)中,每月保底費(fèi)用包含的調(diào)用次數(shù)為百萬次量級(jí)。合作至今,雙方一直按照調(diào)用量進(jìn)行正常結(jié)算。
2、我方對(duì)筆神作文接口的調(diào)用,屬于雙方合同約定的正常合作范圍,對(duì)筆神素材內(nèi)容的使用均符合合同要求,并未用于合同以外的任何用途。
3、對(duì)方在公開聲明中提及學(xué)而思正在研發(fā)的數(shù)學(xué)大模型MathGPT以及學(xué)而思學(xué)習(xí)機(jī)“作文AI助手”,并主觀揣測(cè)我方使用其數(shù)據(jù)用于兩款產(chǎn)品的訓(xùn)練和研發(fā),這與事實(shí)嚴(yán)重不符:首先,MathGPT是專注于數(shù)學(xué)領(lǐng)域的自研大模型,沒有任何作文相關(guān)數(shù)據(jù); 其次,“作文AI助手”目前處于開發(fā)狀態(tài),尚未發(fā)布,該服務(wù)并未使用筆神作文的任何數(shù)據(jù)。
500萬篇作文素材從何而來
作為AI核心要素之一的數(shù)據(jù),據(jù)筆神作文和世紀(jì)天鴻披露,筆神作文積累的作文素材已超過500萬篇。
世紀(jì)天鴻此前在互動(dòng)平臺(tái)中表示,筆神作文的大數(shù)據(jù)來源于自身累積,算法模型為公司自研訓(xùn)練。
此前5月8日,深交所對(duì)世紀(jì)天鴻下發(fā)關(guān)注函,其中要求說明公司是否向一筆兩劃提供訓(xùn)練“筆神作文”AI模型所需的數(shù)據(jù);如是,需要結(jié)合公司有關(guān)數(shù)據(jù)的獲取方式及來源等,按照《數(shù)據(jù)安全法》等相關(guān)規(guī)定,說明獲取、處理及使用有關(guān)數(shù)據(jù)的合法性;有關(guān)數(shù)據(jù)資產(chǎn)產(chǎn)權(quán)的權(quán)屬是否清晰、是否存在潛在糾紛,相關(guān)方是否存在其他協(xié)議及利益安排。
世紀(jì)天鴻回復(fù)關(guān)注函時(shí)表示,經(jīng)核實(shí),一筆兩劃訓(xùn)練“筆神作文”AI模型所需數(shù)據(jù),均為一筆兩劃在自身經(jīng)營(yíng)過程中積累。截至目前,公司未使用“筆神作文”向客戶提供服務(wù),也未向一筆兩劃提供“筆神作文”AI模型訓(xùn)練所需數(shù)據(jù)。后續(xù),如一筆兩劃就“筆神作文”AI 模型訓(xùn)練有數(shù)據(jù)采買需求,公司將嚴(yán)格按照《數(shù)據(jù)安全法》等相關(guān)規(guī)定,在確保有關(guān)數(shù)據(jù)獲取、處理及使用合法、數(shù)據(jù)資產(chǎn)產(chǎn)權(quán)權(quán)屬清晰,無潛在糾紛的前提下,協(xié)商確定具體業(yè)務(wù)合作方式。
筆神作文向《科創(chuàng)板日?qǐng)?bào)》表示:“用戶在筆神作文APP使用我們服務(wù)的過程中,根據(jù)協(xié)議,我們會(huì)積累大量用戶的原始的作文素材,成為我們的資產(chǎn)。這也是學(xué)而思與我們合作的原因,學(xué)而思如果從頭積累數(shù)據(jù),時(shí)間成本很高,短期沒有辦法積累相同數(shù)量級(jí)的數(shù)據(jù)?!?/p>
據(jù)悉,根據(jù)筆神作文的用戶服務(wù)協(xié)議,用戶在筆神作文發(fā)表的內(nèi)容,授予筆神作文免費(fèi)且不可撤銷的非獨(dú)家使用許可。
平衡安全與發(fā)展成AI監(jiān)管挑戰(zhàn)
筆神作文與學(xué)而思的糾紛,牽引出大模型的一個(gè)“隱秘的角落”:用于訓(xùn)練AI大模型的數(shù)據(jù),來源是否合法合規(guī)?事實(shí)上,關(guān)于大模型數(shù)據(jù)集的紛爭(zhēng)已在海內(nèi)外頻頻上演。
今年1月,海外圖片供應(yīng)商華蓋創(chuàng)意(Getty Images)起訴AI繪畫工具Stable Diffusion的開發(fā)者Stability AI,稱其侵犯了版權(quán)。華蓋創(chuàng)意稱,Stability AI“非法”從網(wǎng)站上竊取了數(shù)百萬張圖片。
2月,《華爾街日?qǐng)?bào)》的一名記者在網(wǎng)上公開表示,他向ChatGPT索取了一份用來訓(xùn)練它的新聞來源清單,收到的回復(fù)列出了20家媒體,但并不清楚OpenAI是否與所列出版商都達(dá)成了協(xié)議。
6月,美國(guó)一家律師事務(wù)所在加州一家聯(lián)邦法院向OpenAI提起集體訴訟。根據(jù)訴狀,OpenAI大規(guī)模盜取互聯(lián)網(wǎng)用戶與該公司產(chǎn)品的互動(dòng)信息,及集成ChatGPT的應(yīng)用中的隱私數(shù)據(jù),并將這些信息用于該公司產(chǎn)品的模型訓(xùn)練。受害者據(jù)稱可能多達(dá)數(shù)百萬人,潛在損失高達(dá)30億美元。
自去年底ChatGPT“一夜成名”,人工智能迎來“狂飆”時(shí)刻,AI生成內(nèi)容(AIGC)領(lǐng)域快速發(fā)展。與此同時(shí),數(shù)據(jù)泄漏、電信詐騙、個(gè)人隱私風(fēng)險(xiǎn)、著作權(quán)侵權(quán)、虛假信息等挑戰(zhàn)層出不窮。
隨著問題的凸顯,各國(guó)也把對(duì)于AI的監(jiān)管提上日程。斯坦福大學(xué)發(fā)布的《2023年人工智能指數(shù)報(bào)告》中提到,對(duì)127個(gè)國(guó)家的立法記錄調(diào)研的結(jié)果顯示,包含“人工智能”的法案被通過成為法律的數(shù)量,從2016年的僅1個(gè)增長(zhǎng)到2022年的37個(gè)。報(bào)告對(duì)81個(gè)國(guó)家2016年以來的人工智能法律法規(guī)記錄的分析也同樣表明,全球立法程序中提及人工智能的次數(shù)增加了近6.5倍。
新一輪人工智能飛速發(fā)展,如何平衡發(fā)展與安全成為此次發(fā)展過程中的一道必答題。
責(zé)任編輯:張薇