來源:中國網(wǎng)信雜志 時間:2023-08-02 10:31:13 作者:
大模型指具備超大規(guī)模預(yù)訓(xùn)練語料、擁有超千億規(guī)模模型參數(shù)的深度學(xué)習(xí)模型。由美國開放人工智能研究中心(OpenAI)研發(fā)、基于大模型的人工智能產(chǎn)品ChatGPT被認(rèn)為是人工智能技術(shù)的新突破,推出僅兩個月后月活躍用戶就已超1億,成為歷史上用戶群增長最快的消費應(yīng)用,并引發(fā)大模型開發(fā)熱潮。黨的二十大報告對信息技術(shù)、人工智能領(lǐng)域建設(shè)作出新的科學(xué)部署,提出“推動戰(zhàn)略性新興產(chǎn)業(yè)融合集群發(fā)展,構(gòu)建新一代信息技術(shù)、人工智能、生物技術(shù)、新能源、新材料、高端裝備、綠色環(huán)保等一批新的增長引擎”。面對人工智能大模型技術(shù)的突飛猛進(jìn),本文聚焦ChatGPT的技術(shù)邏輯、大模型技術(shù)應(yīng)用對互聯(lián)網(wǎng)生態(tài)影響等方面的問題,深入探討相關(guān)技術(shù)、產(chǎn)品、生態(tài)等發(fā)展趨勢。
ChatGPT的兩項關(guān)鍵技術(shù)突破
從技術(shù)邏輯來看,以ChatGPT為代表的大模型應(yīng)用在自然語言處理技術(shù)領(lǐng)域有兩個重要的突破點。
一是面向開放域的多輪對話。在很長一段時間里,自然語言對話任務(wù)的處理技術(shù)無法突破單輪對話瓶頸,針對提問的回答通過檢索來匹配,只能實現(xiàn)僵硬的一問一答式對話。但基于大模型應(yīng)用的ChatGPT支持開放域的多輪對話,即一方面支持同一模型下的多類型、多領(lǐng)域?qū)υ?,另一方面支持追問式的多輪對話。通過引入“上下文學(xué)習(xí)”(In-ContextLearning)的模型訓(xùn)練機制,ChatGPT等應(yīng)用能不斷回溯上下文內(nèi)容,學(xué)習(xí)并整合用戶多輪對話信息,逐輪聚焦、精準(zhǔn)理解用戶需求,以提供更準(zhǔn)確地響應(yīng)。
二是生成式文本。ChatGPT沿用的生成式技術(shù)以“字詞接龍”形式實現(xiàn)文本生成。通過引入自回歸機制,ChatGPT能將每一輪歷史對話的信息和當(dāng)前用戶追問的信息同時納入模型,自動生成新的預(yù)測序列,并進(jìn)一步結(jié)合已習(xí)得的海量數(shù)據(jù)、具體對話語境,逐步預(yù)測回復(fù)文本的各個字詞,并生成新的回復(fù)文本。這項技術(shù)突破機器寫作的模板化模式,將文本預(yù)測的基本單元由句段精細(xì)到字詞層級,繼而生成更多樣、靈活、自然的文本內(nèi)容。
ChatGPT的這兩項技術(shù)突破意味著人工智能由“猴”向“類人”的質(zhì)變跨越。ChatGPT的多輪對話和生成式文本兩項技術(shù)展現(xiàn)出推理決策、概念抽象等處理能力,推動人機交互進(jìn)入新階段,解決單輪對話的“前言不搭后語”“答非所問”“程式化問答”“無法存留記憶”等問題,使機器具備與人交流的基本能力。此外,不同于以往人機對話應(yīng)用,ChatGPT將用戶與機器引入一定對話場景中,針對某一話題開展多輪開放對話,模擬并建構(gòu)起人際對話的臨場感,帶給用戶更連貫、自然、真實的對話體驗。換句話說,ChatGPT超越圖靈測試的人工智能標(biāo)準(zhǔn),使機器開始像“人”一樣與用戶交流,外顯出一定“人”的語言行為特征。
大模型對互聯(lián)網(wǎng)生態(tài)的影響
ChatGPT是GPT生成式預(yù)訓(xùn)練轉(zhuǎn)換器對大模型的一項應(yīng)用,GPT大模型在刷新人機交往新體驗的同時,也將對互聯(lián)網(wǎng)生態(tài)產(chǎn)生影響。正如開放人工智能研究中心首席執(zhí)行官山姆·阿爾特曼所預(yù)測的那樣,人工智能大模型技術(shù)將以聊天機器人為切入點,逐步納入圖像、音頻等多模態(tài)模型,成為繼移動互聯(lián)網(wǎng)之后最大的技術(shù)平臺。大模型對互聯(lián)網(wǎng)生態(tài)的影響將從四個方面考量。
一是大模型是否會成為未來互聯(lián)網(wǎng)競爭的門檻。大模型的出現(xiàn)與計算機科學(xué)的數(shù)據(jù)獲取與存儲能力、數(shù)據(jù)計算能力的發(fā)展緊密相關(guān)。近年來,云計算、超算技術(shù)等走向應(yīng)用化,訓(xùn)練大模型成為可能。同時,互聯(lián)網(wǎng)的普及帶來海量可用數(shù)據(jù)為訓(xùn)練大模型奠定豐富的數(shù)據(jù)基礎(chǔ)。ChatGPT只是大模型應(yīng)用的“冰山一角”,建立在大模型基礎(chǔ)之上的應(yīng)用還將出現(xiàn),下一步的互聯(lián)網(wǎng)應(yīng)用是否會建立在大模型之上?互聯(lián)網(wǎng)產(chǎn)業(yè)生態(tài)競爭的重點是否會轉(zhuǎn)移到大模型研發(fā)賽道?當(dāng)大模型研發(fā)成為主流競爭賽道,大模型是否會成為企業(yè)參與互聯(lián)網(wǎng)競爭的門檻?
二是大資本支持的算力是否會成為互聯(lián)網(wǎng)競爭的基礎(chǔ)。算力是大模型的基礎(chǔ)保證,從早期的詞向量預(yù)訓(xùn)練語言模型(ELMo)到基于轉(zhuǎn)換器的雙向編碼表示模型(BERT-L)再到GPT3.0模型,大模型對算力的需求持續(xù)增長,但算力需要資金的支撐保障。一方面是GPU建設(shè)需要,以GPT大模型為例,其算力基礎(chǔ)設(shè)施至少需要上萬片英偉達(dá)旗艦數(shù)據(jù)中心顯卡GPUA100,而一片英偉達(dá)頂級GPU的采購成本達(dá)到8萬元、GPU服務(wù)器成本超過40萬元,總成本遠(yuǎn)超中小型企業(yè)負(fù)擔(dān)能力;另一方面是訓(xùn)練成本需要,盡管計算技術(shù)和數(shù)據(jù)資源條件充分,大模型訓(xùn)練成本仍是一道無法輕易跨越的門檻。以GPT3.0模型為例,該模型擁有1750億參數(shù),需借助超算基礎(chǔ)設(shè)備進(jìn)行訓(xùn)練,單次訓(xùn)練所需費用達(dá)460萬美元?;诖竽P偷幕ヂ?lián)網(wǎng)競爭并非停留在技術(shù)本身,而是一定意義上關(guān)系到是否有資金支持。因而,能否獲得資本支持可能成為未來企業(yè)參與大模型研發(fā)與互聯(lián)網(wǎng)競爭的基礎(chǔ)。
三是云端是否會成為下一個互聯(lián)網(wǎng)競爭空間。大模型的開發(fā)與場景化應(yīng)用將與基于云端的數(shù)據(jù)存儲、傳輸和計算功能的聯(lián)系愈加緊密,依托云端建立起大模型計算任務(wù)執(zhí)行與大規(guī)模算力基礎(chǔ)設(shè)施之間的連接。云端不僅是計算云和儲存云,對云端的開發(fā)能力還將決定互聯(lián)網(wǎng)應(yīng)用的質(zhì)量高低。云端為人工智能的芯片層、框架層、模型層和應(yīng)用層提供跨地理的連接與信息交流的窗口,各方能夠在算力支持、算法服務(wù)、模型訓(xùn)練、應(yīng)用開發(fā)等環(huán)節(jié)“大顯身手”,進(jìn)而可能形成大模型及其應(yīng)用匯聚、衍生、對話、競合的洼地。進(jìn)一步來說,未來用戶對云廠商的需求更加聚焦智能服務(wù),重點考察框架是否穩(wěn)健、模型是否善于計算,以及模型、框架、芯片、應(yīng)用這四層架構(gòu)之間的協(xié)同水平。
四是“對話即平臺”或?qū)⒊蔀榇竽P蜁r代產(chǎn)業(yè)趨勢。2016年,微軟首席執(zhí)行官薩提亞·納德拉提出“對話即平臺”理念,即對話將成為下一代人機交互的界面,并將其視為人工智能時代的核心革命?!皩υ捈雌脚_”不僅意味著人機交互以自然語言對話的形式進(jìn)行,更強調(diào)用戶擁有個人的智能助理,能定制化完成用戶各項需求任務(wù),且不再需要直接使用其他軟件應(yīng)用。大模型的出現(xiàn)將人機交互的形式由計算機語言、圖像界面切換為基于自然語言的對話,回歸到人類最自然的交互方式,對話似乎成為主流趨勢。盡管通用型人工智能助理仍是一種展望,但“對話即平臺”的理念在大模型應(yīng)用中已有顯現(xiàn)。GPT-4大模型與微軟辦公軟件(Office)的接入,即是這一理念的場景應(yīng)用探索。隨著大模型應(yīng)用場景增加,單一功能產(chǎn)品可能無法順利“出圈”;通用型、一體化新產(chǎn)品或?qū)⒊蔀橹髁髭厔荩詽M足個性化用戶需求。此外,隨著人機交互程度深化,大模型應(yīng)用可能進(jìn)一步強化情感體驗,對人類情感的理解與機器情感的建構(gòu)有望成為重要突破方向。
GPT-4是一個多模態(tài)大型語言模型,即支持圖像和文本輸入,以文本形式輸出。
我國大模型研發(fā)現(xiàn)狀
目前,多家中國企業(yè)、科研院所積極進(jìn)入大模型競爭賽道,涌入大模型研發(fā)行列,競相開發(fā)各自的大模型,在短時間內(nèi)國內(nèi)呈現(xiàn)“百模大戰(zhàn)”的競爭態(tài)勢。2023年2月7日,百度官宣大模型新項目“文心一言”,成為國內(nèi)首個公開推出的大模型。隨后,多家企業(yè)、科研院所相繼宣布或推出各自的大模型。在研發(fā)通用大模型的賽場上,既有百度、阿里、騰訊等互聯(lián)網(wǎng)企業(yè),也有商湯科技、科大訊飛等AI公司,還有清華大學(xué)、復(fù)旦大學(xué)、北京智源人工智能研究院等科研院所,比如,清華大學(xué)唐杰團(tuán)隊的ChatGLM。同時,更有一批“另起爐灶”的創(chuàng)業(yè)者轉(zhuǎn)型大模型研發(fā),包括美團(tuán)聯(lián)合創(chuàng)始人王慧文創(chuàng)建的“光年之外”、創(chuàng)新工場創(chuàng)始人李開復(fù)創(chuàng)辦的“ProjectAI2.0”等。
2023年2月7日,百度官宣大模型新項目“文心一言”,成為國內(nèi)首個公開推出的大模型。
2023年4月14日,騰訊云新發(fā)布面向大模型訓(xùn)練的新一代HCC高性能計算集群。
與此同時,一部分擁有超算資源的互聯(lián)網(wǎng)企業(yè)選擇以“服務(wù)者”角色加入“百模大戰(zhàn)”,通過為大模型培育客戶提供其具備的算力支持,輔助其做好大模型開發(fā)。以字節(jié)跳動為代表,旗下火山引擎依托云端推出大模型訓(xùn)練云平臺,面向其他AI大模型團(tuán)隊提供算力等技術(shù)服務(wù),為這些團(tuán)隊提供大模型競爭的“入場券”。統(tǒng)計顯示,目前國內(nèi)大模型領(lǐng)域的數(shù)十家企業(yè),近七成基于火山引擎云平臺開發(fā)大模型,毫末智行、名之夢(MiniMax)、智譜AI、昆侖萬維等科技企業(yè)都借助火山引擎的支持進(jìn)行大模型訓(xùn)練迭代。這種基于云端的算力分配與調(diào)用,將芯片層、框架層與模型層連接起來,可能成為云端競爭的一種新模式。
還有一批企業(yè)機構(gòu)錨定垂直領(lǐng)域大模型開發(fā)。自ChatGPT推出以來,各行各業(yè)就開始基于行業(yè)構(gòu)建大模型應(yīng)用場景。在醫(yī)療、金融、教育等行業(yè),一批擁有用戶數(shù)據(jù)積累的中小型企業(yè)已開始基于國內(nèi)外大模型底座訓(xùn)練適配自身應(yīng)用場景的垂類大模型,探索垂類大模型應(yīng)用開發(fā)。與此同時,已發(fā)布通用大模型的企業(yè)也相繼推出面向特有行業(yè)的模型,如百度基于“文心大模型”推出的“文心千帆”大模型服務(wù)平臺,支持用戶開發(fā)垂類大模型。這些如雨后春筍般生長的垂類大模型以應(yīng)用與場景先行,進(jìn)一步將大模型接入用戶層面。同時,新產(chǎn)品研發(fā)倒逼垂直領(lǐng)域的大模型優(yōu)化提升,與通用大模型發(fā)展形成正向反饋,有望加速大模型應(yīng)用生態(tài)形成。
我國應(yīng)對大模型時代到來的思考
從最早的PC互聯(lián)網(wǎng)時代,到移動互聯(lián)網(wǎng)時代,再到可能進(jìn)入的大模型時代,每次互聯(lián)網(wǎng)的演變都給社會發(fā)展帶來深遠(yuǎn)影響,如何跟進(jìn)技術(shù)發(fā)展變革的步伐將影響我國互聯(lián)網(wǎng)在全球的競爭力。
一是對大模型要有準(zhǔn)確的認(rèn)知判斷。以ChatGPT為代表的大模型是人工智能技術(shù)發(fā)展的一個新突破,為通向通用人工智能提供了一個可能的技術(shù)路線,大模型領(lǐng)域的落后或許意味著人工智能技術(shù)的整體落后。同時,大模型的廣泛應(yīng)用也可能會帶來虛假信息衍生、模型算法偏見、人機與人際信任爭奪、用戶的情感依賴等問題。降低大模型應(yīng)用的風(fēng)險需執(zhí)行有效明確的規(guī)則,以積極的態(tài)度建立政府、企業(yè)、公眾各層面統(tǒng)籌應(yīng)對機制,面向大模型訓(xùn)練、應(yīng)用開發(fā)等環(huán)節(jié)建立健全法律法規(guī),防止大模型技術(shù)被惡意使用。
二是按照技術(shù)邏輯推進(jìn)大模型的培育發(fā)展。應(yīng)對人工智能領(lǐng)域的大模型浪潮,首要一點是從技術(shù)邏輯出發(fā)推進(jìn)大模型的培育與發(fā)展。技術(shù)邏輯意味著遵循技術(shù)發(fā)展路徑、營造技術(shù)創(chuàng)新環(huán)境。更具體來說,算力是大模型發(fā)展的物質(zhì)支撐,算力決定了大模型的參數(shù)規(guī)模、數(shù)據(jù)量級與運算效率。大模型是全球競爭的市場,為大模型發(fā)展提供政策環(huán)境,鼓勵企業(yè)投入大模型研發(fā),用市場方式積聚全球頂尖技術(shù)人才,才可能做強做大。
三是積極培育大模型應(yīng)用生態(tài)開發(fā)。無論是PC互聯(lián)網(wǎng)還是移動互聯(lián)網(wǎng),通信技術(shù)的升級迭代與應(yīng)用生態(tài)的開發(fā)建設(shè)都需要“并駕齊驅(qū)”。應(yīng)用生態(tài)開發(fā)是我國強項,尤其在移動互聯(lián)網(wǎng)時代涌現(xiàn)出諸多全球創(chuàng)新領(lǐng)先的應(yīng)用技術(shù)。在即將到來的大模型時代,模型的訓(xùn)練優(yōu)化同樣離不開應(yīng)用生態(tài)的開發(fā)建設(shè),兩者相輔相成。一方面,基于大模型的強大算力優(yōu)勢,針對垂直應(yīng)用場景開發(fā)適配行業(yè)需求的垂類大模型產(chǎn)品應(yīng)用,加快大模型產(chǎn)品的價值落地,倒逼垂直領(lǐng)域大模型技術(shù)迭代;另一方面,釋放云端大數(shù)據(jù)的競爭活力,推動多元化創(chuàng)意、技術(shù)、需求、場景的碰撞與融合,實現(xiàn)模型-應(yīng)用層面的有機接入與資源循環(huán),不斷提升大模型應(yīng)用的多樣化和通用化能力,探索“大模型+”的產(chǎn)業(yè)融合集群發(fā)展。
總之,大模型的出現(xiàn)將人機關(guān)系推向新階段,并對互聯(lián)網(wǎng)生態(tài)形成新一輪變革。面對大模型時代的到來,我國應(yīng)加快布局,多方合力推進(jìn)大模型應(yīng)用生態(tài)建設(shè),在新一代人工智能技術(shù)發(fā)展賽道上奪得先機。
作者:張洪忠系北京師范大學(xué)新聞傳播學(xué)院教授、新媒體傳播研究中心主任;任吳炯系北京師范大學(xué)新聞傳播學(xué)院博士生
責(zé)任編輯:張薇