來源:之江實驗室 時間:2023-06-13 15:57:19 作者:
當前,生成式大模型已經(jīng)為學術研究甚至是社會生活帶來了深刻的變革,以ChatGPT為代表,生成式大模型的能力已經(jīng)顯示了邁向通用人工智能的可能性。但同時,研究者們也開始意識到ChatGPT等生成式大模型面臨著數(shù)據(jù)和模型方面的安全隱患。
今年5月初,美國白宮與谷歌、微軟、OpenAI、Anthropic等AI公司的CEO們召開集體會議,針對AI生成技術的爆發(fā),討論技術背后隱藏的風險、如何負責任地開發(fā)人工智能系統(tǒng),以及制定有效的監(jiān)管措施。國內的生成式大模型技術也正在發(fā)展之中,但是同時也需要先對安全問題進行相應的分析以便雙管齊下,避免生成式大模型這把雙刃劍帶來的隱藏危害。
為此,之江實驗室基礎理論研究院人工智能與安全團隊首次全面總結了ChatGPT為代表的生成式大模型的安全與隱私問題白皮書,希望能夠為從事安全問題研究的技術人員指明方向,同時也為AI相關政策的制定者提供依據(jù)。
生成式大模型的發(fā)展與重要應用
這份白皮書首先總結了ChatGPT與GPT4等生成式大模型的發(fā)展歷程,以及其帶來的各種令人驚嘆的能力和社會變革、社會應用等。作者列舉了ChatGPT和GPT4出現(xiàn)之前的GPT-1、GPT-2、GPT-3、GoogleBert等模型的特點以及缺點,這些缺點與ChatGPT和GPT4的強大能力形成了對比;并且,ChatGPT和GPT4之后又涌現(xiàn)了一大批的模型,包括LLaMa、Alpaca、文心一言、通義千問等,它們的出現(xiàn)使得在人機交互、資源管理、科學研究、內容創(chuàng)作等應用領域出現(xiàn)了新的、強有力的工具。但同時也出現(xiàn)了包括數(shù)據(jù)安全,使用規(guī)范、可信倫理、知識產(chǎn)權以及模型安全方面的問題。
數(shù)據(jù)安全問題
白皮書提出,數(shù)據(jù)的安全和隱私是ChatGPT及GPT4等生成式大模型使用和研發(fā)過程中一個極為重要的問題,并從「顯式」和「隱式」兩個方面對其進行了分析。
在顯式的信息泄漏中,首先,ChatGPT等生成式大模型的訓練數(shù)據(jù)在不經(jīng)意間被轉換成了生成內容,其中就包括了敏感和隱私的個人信息如銀行卡賬號、病例信息等。此外,ChatGPT的數(shù)據(jù)安全和隱私隱患還體現(xiàn)在它對于對話框內容的存儲,當用戶在和ChatGPT互動時,他們的信息會以某些形式被記錄和存儲下來。
白皮書還提出了之前被大家忽略的隱式信息泄漏問題。首先,ChatGPT體現(xiàn)出的數(shù)據(jù)安全和隱私的隱患是它可能通過對對話框數(shù)據(jù)的收集進行廣告推薦,以及收集對話框數(shù)據(jù)進行推薦或者其他的下游機器學習任務,且ChatGPT有時候可能也會生成虛假的信息,以此來誘導用戶泄漏一系列的數(shù)據(jù)。
具體內容如下:
責任編輯:張薇