大模型安全與倫理研究（2024）

來源：騰訊研究院時(shí)間：2024-01-31 15:22:53 作者：

　　日前，騰訊發(fā)布了大模型安全白皮書《大模型安全與倫理研究報(bào)告2024：以負(fù)責(zé)任AI引領(lǐng)大模型創(chuàng)新》。該報(bào)告由騰訊朱雀實(shí)驗(yàn)室、騰訊研究院、騰訊混元大模型、清華大學(xué)深圳國際研究生院、浙江大學(xué)區(qū)塊鏈與數(shù)據(jù)安全全國重點(diǎn)實(shí)驗(yàn)室聯(lián)合研究撰寫，對(duì)大模型發(fā)展中的安全機(jī)遇與挑戰(zhàn)、大模型安全框架和實(shí)踐做法、AI倫理和價(jià)值對(duì)齊進(jìn)行了系統(tǒng)性梳理，并展望了大模型安全與倫理未來趨勢(shì)。

　　大模型發(fā)展的技術(shù)新動(dòng)向

　　1、多模態(tài)解析世界的本來面貌，并實(shí)現(xiàn)“三生萬物”

　　多模態(tài)是人類世界的本來樣貌，AGI的發(fā)展趨勢(shì)一定是朝向多模態(tài)。技術(shù)將從文本、圖像、視頻（2D和3D），再到聲、光、電，甚至分子、原子等各類模態(tài)，而且具備跨模態(tài)遷移的特性。未來理想的框架是“多模態(tài)的對(duì)齊和融合+統(tǒng)一的編碼器和解碼器”。

　　比爾蓋茨近日撰文：AIAgent將是下一個(gè)平臺(tái)，人工智能即將徹底改變?nèi)藗兪褂糜?jì)算機(jī)的方式并顛覆軟件行業(yè)。在不久的將來，任何上網(wǎng)的人都將能夠擁有由人工智能驅(qū)動(dòng)的個(gè)人助手，遠(yuǎn)超今天的技術(shù)水平。

　　3、端側(cè)大模型加速部署，或?qū)⒊蔀槲磥斫换バ氯肟?/p>

　　大模型正在向端側(cè)轉(zhuǎn)移，AI推理將在在手機(jī)、PC、耳機(jī)、音箱、XR、汽車，以及其它可穿戴式新型終端上運(yùn)行。

　　4、AI助力科研探索，貫穿科研全過程

　　AI與各個(gè)科學(xué)領(lǐng)域結(jié)合后，正在發(fā)生一場(chǎng)充滿潛力和挑戰(zhàn)的科技革命。

　　大模型安全框架

　　在人工智能安全領(lǐng)域，通用的數(shù)據(jù)安全問題和模型安全問題在大型模型中依然存在相似的風(fēng)險(xiǎn)。總的來說，大模型同樣具有通用人工智能面臨的安全風(fēng)險(xiǎn)問題，同時(shí)引入了一些大模型場(chǎng)景中特有的安全風(fēng)險(xiǎn)。因此，如何安全、可控地應(yīng)用大模型相關(guān)技術(shù)尤為關(guān)鍵。

　　大模型安全框架首先從大模型生產(chǎn)研發(fā)的角度，將大模型的生命周期進(jìn)行拆解，劃分為數(shù)據(jù)處理、大模型訓(xùn)練部署、大模型應(yīng)用三個(gè)不同階段，并且對(duì)這三個(gè)階段可能涉及的資產(chǎn)進(jìn)行了梳理。接著，大模型安全框架圍繞大模型的安全生命周期，從全局視角剖析了在大模型安全研發(fā)應(yīng)用流程中存在的安全風(fēng)險(xiǎn)問題，以及如何應(yīng)用這類安全風(fēng)險(xiǎn)的可能解決方案。

　　大模型安全框架的設(shè)計(jì)旨在具備全局性、實(shí)用性和前瞻性：

　　·全局性

　　大模型的研發(fā)應(yīng)用是集數(shù)據(jù)、模型、算法、應(yīng)用于一體的有機(jī)體，經(jīng)歷了數(shù)據(jù)處理、模型訓(xùn)練、模型評(píng)估、模型部署等多個(gè)階段。大模型安全應(yīng)用框架面向大模型研發(fā)應(yīng)用的所有關(guān)鍵基礎(chǔ)組件，覆蓋大模型全生命周期，提出全面且有針對(duì)性的安全建議。

　　·實(shí)用性

　　目前面對(duì)新出現(xiàn)的大模型安全風(fēng)險(xiǎn)，目前行業(yè)內(nèi)還未形成成熟完善的解決方案。大模型安全應(yīng)用框架旨在提供大模型生命中周期中實(shí)用的、可操作的、有針對(duì)性的安全建議。

　　·前瞻性

　　目前行業(yè)內(nèi)已經(jīng)暴露出諸多大模型安全風(fēng)險(xiǎn)，然而目前大模型安全仍然屬于一個(gè)新興的安全領(lǐng)域，許多安全攻防理論和技術(shù)仍然處于建設(shè)階段。因此，大模型安全應(yīng)用框架的設(shè)計(jì)，不局限于當(dāng)前已發(fā)現(xiàn)的安全風(fēng)險(xiǎn)的解決，而是立足于保障大模型技術(shù)安全應(yīng)用這一目標(biāo)，同樣關(guān)注未來可能出現(xiàn)的安全風(fēng)險(xiǎn)問題，提出能有效應(yīng)對(duì)新風(fēng)險(xiǎn)的大模型安全框架。

　　大模型安全與倫理未來趨勢(shì)

　　AI安全和倫理已經(jīng)成為了AI領(lǐng)域不可或缺的組成部分，對(duì)于大模型而言，其安全、倫理、人機(jī)對(duì)齊等問題之應(yīng)對(duì)和解決，將需要政府、業(yè)界、學(xué)界等利益相關(guān)方進(jìn)行持續(xù)的探索。

　　其一，數(shù)據(jù)安全、隱私泄露、抗攻擊能力提升等問題是現(xiàn)有大模型應(yīng)用面臨的真實(shí)挑戰(zhàn)，解決這些問題的技術(shù)手段還存在一定的局限性。對(duì)抗性人工智能技術(shù)與防御策略之間的競(jìng)賽將加劇，為了應(yīng)對(duì)對(duì)抗性攻擊和操縱等惡意行為，模型需要被設(shè)計(jì)為更加具有魯棒性。

　　其二，從整體上對(duì)AI大模型的安全風(fēng)險(xiǎn)進(jìn)行建模，系統(tǒng)化地構(gòu)建安全評(píng)估系統(tǒng)是大模型安全領(lǐng)域的未來發(fā)展方向。這將最大程度地確保大模型應(yīng)用是在符合社會(huì)價(jià)值與應(yīng)用價(jià)值方面同步進(jìn)行。

　　其三，增強(qiáng)模型透明度和可解釋性。研究模型的可解釋性，提高模型的透明度既是未來AI的發(fā)展方向，也能幫助提升AI模型的安全性。未來的人工智能模型可能會(huì)融入更先進(jìn)的XAI技術(shù)。

　　其四，人機(jī)價(jià)值對(duì)齊和倫理嵌入設(shè)計(jì)（ethicsbydesign）的理念將變得越來越重要。無論是AI價(jià)值對(duì)齊還是倫理嵌入設(shè)計(jì)，都需要人們發(fā)展新的更加務(wù)實(shí)的AI倫理框架及其實(shí)踐指南。

　　其五，人工智能監(jiān)管立法和國際治理合作將得到進(jìn)一步推進(jìn)。未來立法和監(jiān)管措施將給大模型安全和倫理的研究和實(shí)踐提供更進(jìn)一步的指導(dǎo)。

　　最后，在大模型安全和倫理研究中，跨學(xué)科合作是一個(gè)重要趨勢(shì)。未來大模型安全和倫理研究需要吸收多領(lǐng)域的知識(shí)和技術(shù)，形成跨學(xué)科的研究團(tuán)隊(duì)，共同解決不斷升級(jí)的復(fù)雜安全和倫理問題，確保負(fù)責(zé)任的、安全可控的AI發(fā)展應(yīng)用。

　　具體內(nèi)容如下：