來(lái)源:藍(lán)象智聯(lián) 時(shí)間:2024-09-02 15:27:02 作者:
8月29日,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)“數(shù)據(jù)安全產(chǎn)業(yè)發(fā)展”交流活動(dòng)舉行。本次活動(dòng)以“深化數(shù)據(jù)安全實(shí)踐,促進(jìn)數(shù)據(jù)價(jià)值挖掘”為主題,由國(guó)家數(shù)據(jù)局指導(dǎo),貴州大數(shù)據(jù)安全工程研究中心主辦。
藍(lán)象智聯(lián)CEO徐敏受邀出席本次論壇,與數(shù)據(jù)安全領(lǐng)域的頂尖專家學(xué)者及知名企業(yè)代表深度探討AI大模型發(fā)展過(guò)程的數(shù)據(jù)安全挑戰(zhàn)。
以下是徐敏觀點(diǎn)論述:
1、AI大模型的發(fā)展現(xiàn)狀與未來(lái)走向
人工智能發(fā)展的幾個(gè)核心要素是:算法、算力、數(shù)據(jù)、場(chǎng)景,這幾個(gè)核心因素彼此協(xié)同作用,來(lái)推動(dòng)人工智能的發(fā)展。過(guò)去幾年中大模型算法的進(jìn)展,則是一次從量變到質(zhì)變的過(guò)程,大模型時(shí)代中算法、算力、數(shù)據(jù)、場(chǎng)景的合力模式和業(yè)務(wù)效果和之前相比,都是數(shù)量級(jí)的提升。
所以大模型的發(fā)展現(xiàn)狀和趨勢(shì)分析,可以從算法、算力、數(shù)據(jù)、場(chǎng)景這四個(gè)要素綜合來(lái)看,這四個(gè)要素彼此促進(jìn)、也彼此限制。
算法方面GPT-4、SORA等大模型技術(shù)的發(fā)展正在進(jìn)入一個(gè)加速發(fā)展期,我們相信就像當(dāng)年美之間軍備競(jìng)賽,我們期待未來(lái)是百花齊放的,可以涌現(xiàn)出眾多超級(jí)新星,但短期之內(nèi)可能還是少量高手間的神仙打架,其他人在默默地學(xué)習(xí)和追趕。
算力方面大家除了要關(guān)注GPU這些核心芯片的進(jìn)化,同時(shí)也要關(guān)注網(wǎng)絡(luò)、系統(tǒng)架構(gòu)、能耗等多個(gè)方面的技術(shù),例如我們之前的數(shù)據(jù)交換網(wǎng)卡是面向大數(shù)據(jù)量數(shù)據(jù)交換包、但每個(gè)數(shù)據(jù)包的數(shù)據(jù)量都不大的應(yīng)用模式設(shè)計(jì)的,那現(xiàn)在在大模型的訓(xùn)練和推理階段,網(wǎng)絡(luò)交換機(jī)的工作模式是數(shù)據(jù)包總量不大、但數(shù)據(jù)包的數(shù)據(jù)量很大的傳輸模式;再比如,GPU因?yàn)楸容^貴、也在不斷進(jìn)化中,那不同GPU混合部署情況下的性能如何提效、降耗能,也都是很值得優(yōu)化。當(dāng)然這些后面也都是蘊(yùn)含商機(jī),特別是國(guó)家在提算力網(wǎng)整體布局的大環(huán)境下。
數(shù)據(jù)是AI大模型的生產(chǎn)資料,大模型的語(yǔ)料需求目前通過(guò)互聯(lián)網(wǎng)數(shù)據(jù)、企事業(yè)單位和政府公共數(shù)據(jù)、打標(biāo)或合成數(shù)據(jù)等模式在提供高質(zhì)量數(shù)據(jù)供給。
最后是場(chǎng)景,和前面三個(gè)因素相比,中國(guó)場(chǎng)景方面的活躍度最高,大家都在探索大模型應(yīng)用場(chǎng)景,也有不少創(chuàng)業(yè)公司已經(jīng)吃到大模型場(chǎng)景的第一杯羹。目前的探索大家在2C領(lǐng)域相對(duì)比較多,但受限于當(dāng)前的投資環(huán)境,所以明星應(yīng)用還不太多;2B領(lǐng)域大模型場(chǎng)景也非常多,但要解決的問(wèn)題也很多,例如如何和現(xiàn)有大B系統(tǒng)架構(gòu)如何無(wú)縫集成、以及更重要的是敏感數(shù)據(jù)的保護(hù)、以及大模型結(jié)果的準(zhǔn)確性和精度的保證等。
最后,我們可以根據(jù)中國(guó)IT技術(shù)的發(fā)展路徑來(lái)探討中國(guó)的AI大模型的發(fā)展模式。十幾年前我們的IT技術(shù)高度依賴于國(guó)外的一些技術(shù),就像IOE,但隨著互聯(lián)網(wǎng)的發(fā)展,大量的場(chǎng)景倒逼著中國(guó)互聯(lián)網(wǎng)公司自研技術(shù)的進(jìn)化,并最終成功地在大量場(chǎng)景下替代或超越了之前傳統(tǒng)技術(shù)的能力。可能在AI大模型的發(fā)展中,初期是技術(shù)催生場(chǎng)景,但發(fā)展一段時(shí)間后,一定會(huì)出現(xiàn)場(chǎng)景倒逼技術(shù)進(jìn)步的現(xiàn)象,而且場(chǎng)景和數(shù)據(jù)對(duì)算法和算力等技術(shù)方面的推動(dòng)作用,會(huì)遠(yuǎn)遠(yuǎn)大于今天的想象。
2、AI大模型發(fā)展中數(shù)據(jù)安全問(wèn)題的表現(xiàn)與應(yīng)對(duì)
首先是數(shù)據(jù)泄露風(fēng)險(xiǎn),AI大模型需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)可能包含敏感的個(gè)人信息。如果數(shù)據(jù)在收集、存儲(chǔ)或使用過(guò)程中沒(méi)有得到適當(dāng)保護(hù),可能導(dǎo)致隱私泄露。另外,也有可能通過(guò)推理攻擊(InferenceAttack)從模型中恢復(fù)出訓(xùn)練數(shù)據(jù)。
第二是偏見(jiàn)和歧視,模型可能會(huì)學(xué)習(xí)到數(shù)據(jù)中存在的偏見(jiàn),進(jìn)而放大社會(huì)上的不公平現(xiàn)象。
第三個(gè)是模型越獄,通過(guò)某些方法繞過(guò)或打破AI模型中原本設(shè)定的限制或安全措施,從而使模型表現(xiàn)出不合規(guī)或者不合法的行為。例如我的一些高校師兄弟們發(fā)現(xiàn)大模型對(duì)輸入的命令有很嚴(yán)格的限制,但對(duì)大模型產(chǎn)出的結(jié)論作為二次命令輸入時(shí),就可以繞開(kāi)安全限制。
另外,還有數(shù)據(jù)投毒攻擊,通過(guò)在訓(xùn)練數(shù)據(jù)中注入惡意數(shù)據(jù),攻擊者可以操縱AI模型的輸出,從而達(dá)到破壞系統(tǒng)或執(zhí)行惡意行為的目的。
那么應(yīng)對(duì)的方式,例如在大模型的訓(xùn)練和推理過(guò)程中使用各種隱私保護(hù)技術(shù)的組合,例如差分隱私、同態(tài)加密、聯(lián)邦學(xué)習(xí)(FederatedLearning)等技術(shù)來(lái)保護(hù)訓(xùn)練數(shù)據(jù)的隱私。當(dāng)然這也是藍(lán)象智聯(lián)我們公司最核心的能力,我們自己也正在做隱私計(jì)算和大模型的結(jié)合方面的工作。
其他的方向,數(shù)據(jù)中毒防御措施:通過(guò)數(shù)據(jù)驗(yàn)證、對(duì)抗訓(xùn)練和提升模型魯棒性來(lái)防范數(shù)據(jù)中毒攻擊。
另外像大模型出來(lái)結(jié)果是否精準(zhǔn),不進(jìn)行所謂的胡說(shuō)八道,也有一些辦法去處理,我有個(gè)老師在做這個(gè)方向的研究,類似于人類的測(cè)謊儀,當(dāng)撒謊時(shí),會(huì)出現(xiàn)脈搏心跳異常、出汗等身體反應(yīng),大模型也是類似,舉個(gè)例子,要出來(lái)一個(gè)結(jié)果可能內(nèi)部有15步推導(dǎo),他們提過(guò)白盒的方式解析了一下,如果出來(lái)的是一個(gè)正確的答案,那過(guò)程中15步推導(dǎo)每一步的結(jié)果概率都是很穩(wěn)定、而且很高,例如98%或者100%;但如果出來(lái)的是一個(gè)胡說(shuō)八道的結(jié)果,他們發(fā)現(xiàn)過(guò)程中15步中,有很多步的推導(dǎo)中的結(jié)果概率是較低的,而且各步之間的結(jié)果概率也非常不穩(wěn)定,有高有低。這個(gè)發(fā)現(xiàn)后面工具化開(kāi)發(fā)后,就可以來(lái)輔助做結(jié)果精確性的判斷。
其他的,還需要通過(guò)法律法規(guī)和倫理審查等方式來(lái)確保大模型技術(shù)發(fā)展的正向價(jià)值。
3.AI大模型發(fā)展語(yǔ)境下的數(shù)據(jù)安全生態(tài)治理建言
大模型首先是一個(gè)復(fù)雜系統(tǒng),復(fù)雜系統(tǒng)的治理必然不是簡(jiǎn)單的事情,幻想通過(guò)一招鮮的方式去達(dá)到效果是不現(xiàn)實(shí)的。
我們可以對(duì)照互聯(lián)網(wǎng)行業(yè)的生態(tài)治理,這里面有國(guó)家政策、法律法規(guī)的頂層設(shè)計(jì)、有在互聯(lián)網(wǎng)數(shù)據(jù)流通渠道上的監(jiān)控、有對(duì)互聯(lián)網(wǎng)平臺(tái)的治理要求以及互聯(lián)網(wǎng)平臺(tái)的自治措施、還有最后一公里中用戶的參與,響應(yīng)的從行政處理到公安司法介入的手段,而且這一系列動(dòng)作底層也有相應(yīng)的不斷進(jìn)化的技術(shù)能力的支持。
大模型的數(shù)據(jù)安全生態(tài)治理的復(fù)雜性不亞于互聯(lián)網(wǎng)行業(yè)的生態(tài)治理,可以參照互聯(lián)網(wǎng)行業(yè)生態(tài)治理的成熟經(jīng)驗(yàn),例如制度法規(guī)標(biāo)準(zhǔn)為引導(dǎo)、學(xué)術(shù)、技術(shù)和產(chǎn)業(yè)平臺(tái)協(xié)同合作。同時(shí)大模型又是一個(gè)新興技術(shù),我們當(dāng)前的治理能力肯定是落后于技術(shù)發(fā)展的速度的,在這種情況下,通過(guò)沙箱或者受限環(huán)境下的試點(diǎn)應(yīng)用積累經(jīng)驗(yàn),逐步完善和進(jìn)化,不能一下子全放開(kāi)、也不能一棍子全打死,這也是一個(gè)平衡的藝術(shù),管的目的最終還是用。就像一個(gè)小朋友在長(zhǎng)大成人的過(guò)程中,一定會(huì)經(jīng)歷青春逆反期,接受他的不完美,來(lái)幫助他變得更完美。
責(zé)任編輯:張薇