來源:中國互聯(lián)網(wǎng)協(xié)會 時間:2023-06-15 15:09:08 作者:
生成式AI作為當(dāng)前人工智能的前沿領(lǐng)域,成為全球最熱的科技話題。2022年OpenAI發(fā)布ChatGPT,生成式AI在模型應(yīng)用層面實現(xiàn)重要突破,僅兩個月突破1億月度活躍用戶數(shù),成為史上用戶增長速度最快的消費級應(yīng)用。全球多家科技企業(yè)加大在生成式AI領(lǐng)域的研發(fā)投入力度,不斷在技術(shù)、產(chǎn)品及應(yīng)用等方面推出重要成果,持續(xù)推動人工智能的創(chuàng)新與商業(yè)化落地進程,也將帶動產(chǎn)業(yè)鏈相關(guān)企業(yè)快速發(fā)展。
在此背景下,在中國互聯(lián)網(wǎng)協(xié)會、中國軟件行業(yè)協(xié)會指導(dǎo)下,天津市人工智能學(xué)會、至頂科技、至頂智庫聯(lián)合發(fā)布《2023年全球生成式AI產(chǎn)業(yè)研究報告》,該報告從全球視角出發(fā),對生成式AI的產(chǎn)業(yè)概況、基礎(chǔ)設(shè)施、算法模型、場景應(yīng)用、機遇挑戰(zhàn)等方面進行梳理,全面展現(xiàn)生成式AI的產(chǎn)業(yè)發(fā)展情況,為政府部門、行業(yè)從業(yè)者、教育工作者以及社會公眾更好了解生成式AI提供參考。
PART.01 生成式AI產(chǎn)業(yè)概況篇
1.1 生成式AI概念及內(nèi)容生成階段
生成式人工智能(Generative AI)是在專業(yè)生成內(nèi)容(PGC)、用戶生成內(nèi)容(UGC)之后,利用人工智能技術(shù)自動生成內(nèi)容的新型生產(chǎn)方式。
生成式AI基于海量訓(xùn)練數(shù)據(jù)和大規(guī)模預(yù)訓(xùn)練模型,自動生成創(chuàng)建文本、音頻、圖像、視頻以及跨模態(tài)信息。
自2022年OpenAI發(fā)布ChatGPT以來,全球爆發(fā)生成式AI熱潮,諸多科技類企業(yè)紛紛推出生成式AI模型、產(chǎn)品和相關(guān)底層基礎(chǔ)設(shè)施及服務(wù)。
1.2 生成式AI產(chǎn)業(yè)發(fā)展驅(qū)動力
近年全球數(shù)據(jù)規(guī)模持續(xù)增長,IDC預(yù)計到2025年全球數(shù)據(jù)規(guī)模將達到175ZB,為人工智能模型訓(xùn)練提供海量數(shù)據(jù)資源;高性能AI芯片的推出為大規(guī)模預(yù)訓(xùn)練模型提供重要算力支撐;伴隨技術(shù)的不斷發(fā)展,Transformer、BERT、LaMDA、ChatGPT等模型實現(xiàn)快速迭代優(yōu)化。在數(shù)據(jù)、算力和模型的共同推動下,全球生成式AI產(chǎn)業(yè)得以迅速發(fā)展,相關(guān)場景應(yīng)用也不斷豐富。
PART.02 生成式AI基礎(chǔ)設(shè)施篇
2.1 AI高性能芯片為生成式AI訓(xùn)練提供算力支撐
人工智能的發(fā)展從深度學(xué)習(xí)時代進入到大模型時代,大規(guī)模預(yù)訓(xùn)練模型的參數(shù)量呈現(xiàn)指數(shù)級上升,需要高性能算力的支撐。
目前,大規(guī)模預(yù)訓(xùn)練模型訓(xùn)練算力是以往的10到100倍,當(dāng)前主流生成式AI模型的訓(xùn)練廣泛使用到英偉達Tensor Core GPU芯片,如微軟斥資數(shù)億美元購買數(shù)萬顆英偉達A100芯片以幫助Open AI打造ChatGPT。
2.2 AI計算集群為生成式AI訓(xùn)練提供大規(guī)模算力資源
AI計算集群能夠提供大規(guī)模算力、持續(xù)提高算力資源利用率、提升數(shù)據(jù)存儲和處理能力,加速AI大模型訓(xùn)練和推理效率。
當(dāng)前較為典型的AI計算集群如英偉達DGX SuperPOD、百度智能云高性能計算集群EHC、騰訊新一代高性能計算集群HCC等,相關(guān)算力基礎(chǔ)設(shè)施持續(xù)為生成式AI訓(xùn)練場景提供強大算力資源,進一步降低模型訓(xùn)練門檻和成本,推動生成式AI模型的落地進程。
2.3 AI云服務(wù)為生成式AI模型開發(fā)提供平臺支撐
人工智能預(yù)訓(xùn)練模型的開發(fā)對于云服務(wù)有較大需求,AI云服務(wù)可以提供人工智能開發(fā)模塊,通過多元化的服務(wù)模式,降低開發(fā)者的開發(fā)成本和產(chǎn)品開發(fā)周期,為模型開發(fā)提供AI賦能。
典型案例如亞馬遜SageMaker,其可提供圖片/圖像分析、語音處理、自然語言理解等相關(guān)服務(wù),使用者無需了解參數(shù)和算法即可實現(xiàn)功能的應(yīng)用。
百度飛槳EasyDL零門檻AI開發(fā)平臺提供圖像分類、物體檢測、文本分類、聲音分類和視頻分類等功能,實現(xiàn)一站式自動化訓(xùn)練,降低AI定制開發(fā)門檻。
PART.03 生成式AI算法模型篇
3.1 全球生成式AI模型發(fā)展歷程
3.2 語言類生成主流模型:OpenAI GPT-1至GPT-4
2018年以來,OpenAI先后發(fā)布GPT-1、GPT-2、GPT-3、ChatGPT、GPT-4等一系列生成式預(yù)訓(xùn)練模型。
GPT-1模型基于Transformer架構(gòu),僅保留架構(gòu)中解碼器部分;
GPT-2模型取消GPT-1中的有監(jiān)督微調(diào)階段;
GPT-3模型舍棄GPT-2的zero-shot,采用few-shot對于特定任務(wù)給予少量樣例;ChatGPT通過采用RLHF(人類反饋強化學(xué)習(xí))技術(shù),增強對模型輸出結(jié)果的調(diào)節(jié)能力;
2023年發(fā)布的GPT-4模型擁有更為強大的多模態(tài)能力,其支持圖文多模態(tài)輸入并生成應(yīng)答文字,可實現(xiàn)對視覺元素的分類、分析和隱含語義提取,表現(xiàn)出優(yōu)秀的應(yīng)答能力。
3.3 語言類生成主流模型:Google Transformer到PaLM-E
2017年,Google發(fā)布具有標(biāo)志性意義的Transformer模型,該模型的解碼模塊成為GPT模型的核心要素,通過引入注意力機制,可實現(xiàn)更大規(guī)模的并行計算,明顯減少模型的訓(xùn)練時間,使得大規(guī)模AI模型得以應(yīng)用。BERT模型、LaMDA模型在信息提取能力以及安全性等方面不斷提升。
最新推出的PaLM-E模型具有很強的泛化和遷移能力,在完成視覺語言和通用語言任務(wù)的同時,可處理多模態(tài)數(shù)據(jù)(語言、視覺、觸覺等),實現(xiàn)指導(dǎo)機器人完成相應(yīng)任務(wù)的功能。
3.4 圖像類生成主流模型:Diffusion Model
Diffusion Model相關(guān)研究可追溯到2015年,去噪擴散概率模型(Denoising Diffusion Probabilistic Model, DDPM)在2020年被提出,展示擴散模型的強大能力,帶動擴散模型的發(fā)展。模型主要包括兩個過程:前向過程和反向過程,其中前向過程又稱為擴散過程,擴散模型通過給圖像增加高斯噪聲破壞訓(xùn)練數(shù)據(jù)來學(xué)習(xí),找出逆轉(zhuǎn)噪聲過程的方法,利用學(xué)習(xí)的去噪聲方法實現(xiàn)從隨機輸入中合成新的圖像。
Diffusion模型的優(yōu)勢在于生成的圖像質(zhì)量更高,不需要通過對抗性訓(xùn)練,在所需數(shù)據(jù)更少條件下,該模型圖像生成效果有明顯提升。
PART.04 生成式AI場景應(yīng)用篇
4.1 全球生成式AI典型應(yīng)用概覽
4.2 生成式AI場景應(yīng)用—文本生成
文本生成應(yīng)用主要在四個領(lǐng)域:內(nèi)容續(xù)寫、文本風(fēng)格遷移、摘要/標(biāo)題生成及整段文本生成,與其相關(guān)的個性化文本生成及實時文本交互前景廣闊。
總體來看,基于NLP技術(shù)的文本生成是生成式AI中發(fā)展較早的應(yīng)用,全球知名科技企業(yè)先后推出文本生成類應(yīng)用工具,如Microsoft、Xmind等相關(guān)產(chǎn)品在文案寫作、數(shù)據(jù)分析、演示文稿、思維導(dǎo)圖等方面均有相關(guān)應(yīng)用案例。
4.3 生成式AI場景應(yīng)用—圖像生成
圖像生成的技術(shù)場景劃分為圖像屬性編輯、圖像局部生成及更改、端到端的圖像生成。其中,前兩者落地場景為圖像編輯工具,端到端的圖像生成則對應(yīng)創(chuàng)意圖像生成及功能性圖像生成兩大落地場景。
目前,圖像編輯工具的使用已較為廣泛,相關(guān)產(chǎn)品較為豐富;創(chuàng)意圖像生成大多以NFT等形式呈現(xiàn),功能性圖像大多以營銷類海報/界面、LOGO、模特圖、用戶頭像為主。
4.4 生成式AI場景應(yīng)用—音頻生成
音頻生成在日常生活中已較為常見,其應(yīng)用領(lǐng)域可進一步區(qū)分為語音合成和音樂創(chuàng)作,語音合成包括文本生成特定語音(TTS)和語音克隆領(lǐng)域。
TTS領(lǐng)域的技術(shù)成熟度較高,但在情感表現(xiàn)上仍有欠缺;語音克隆對電影、動畫等行業(yè)意義重大值得關(guān)注;音樂創(chuàng)作可進一步細分為作詞、作曲、編曲、錄制、混音等多個方向,創(chuàng)作過程主要依托Transformer模型。
4.5 生成式AI場景應(yīng)用—視頻生成
視頻生成有望成為未來跨模態(tài)生成領(lǐng)域的中高潛力場景。視頻生成主要對應(yīng)三個領(lǐng)域:視頻屬性編輯、視頻自動剪輯、視頻部分生成。
視頻屬性編輯已廣泛應(yīng)用于視頻創(chuàng)作領(lǐng)域,大幅提升視頻剪輯效率;視頻自動剪輯主要在技術(shù)嘗試階段;視頻部分生成的原理本質(zhì)與圖像生成類似,強調(diào)將視頻切割成幀,再對每一幀的圖像進行處理,現(xiàn)階段的技術(shù)在于提升修改精準(zhǔn)度與修改實時性兩方面。
4.6 生成式AI場景應(yīng)用—數(shù)字人
數(shù)字人指存在于非物理世界(如圖片、視頻、直播、VR)中,并具有多重人類特征的綜合。數(shù)字人代表著從文本/音頻等低密度模態(tài)向圖像/視頻/實時交互等信息密度更高模態(tài)的轉(zhuǎn)化,未來視頻乃至元宇宙領(lǐng)域都將是數(shù)字人的重要應(yīng)用場景。
在生成式AI領(lǐng)域,數(shù)字人生成可劃分為數(shù)字人視頻生成和數(shù)字人實時互動,數(shù)字人視頻生成是目前應(yīng)用最廣泛的領(lǐng)域之一,而數(shù)字人實時互動多應(yīng)用于可視化的智能客服,更強調(diào)實時交互功能。
PART.05 生成式AI機遇挑戰(zhàn)篇
5.1 生成式AI時代,行政類工作被替代性高,“問客”有望成為新職業(yè)
生成式AI對就業(yè)的影響挑戰(zhàn)與機遇并存。一方面,生成式AI將促進崗位智能化升級,部分工作崗位將被替代。據(jù)高盛分析,生成式AI的智能自動化能力極大提升工作效率并降低運營成本,美國和歐洲的傳統(tǒng)職位都將受到不同程度的AI自動化影響,生成式AI可以替代四分之一的工作崗位。
另一方面,生成式AI也會創(chuàng)造新職業(yè):“問客”(Prompt Engineer)讓人們能夠利用自然語言作為提示詞,通過與AI進行交互,得到信息或創(chuàng)造作品。除此之外,圍繞人工智能的相關(guān)領(lǐng)域也將產(chǎn)生大量新的工作崗位。
5.2 生成式AI作品版權(quán)主要在軟件所有者和使用者之間分配
生成式AI本質(zhì)是機器學(xué)習(xí)的應(yīng)用,其在模型學(xué)習(xí)階段不可避免地會使用大量的數(shù)據(jù)集執(zhí)行訓(xùn)練,但對訓(xùn)練后生成物的版權(quán)歸屬問題尚存爭議。
由于法律主體才能享有權(quán)利,所以生成式AI作品的版權(quán)只能由對作品的生成具有貢獻的人享有,相關(guān)人員包括軟件開發(fā)者、所有者和使用者(主體身份可能重合),一般認(rèn)為生成式AI軟件開發(fā)者已從軟件版權(quán)中得到補償,生成式AI作品版權(quán)主要在軟件所有者和使用者之間分配。
具體內(nèi)容如下:
責(zé)任編輯:張薇