精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

首頁(yè) 資訊正文

大模型訓(xùn)練亟待突破哪些瓶頸?

  人工智能大模型訓(xùn)練對(duì)算力基礎(chǔ)設(shè)施的要求從單卡拓展到了集群層面,這對(duì)大規(guī)??ㄩg互聯(lián)的兼容性、傳輸效率、時(shí)延等指標(biāo)提出了更高的要求。近日,中國(guó)移動(dòng)研究院網(wǎng)絡(luò)與IT技術(shù)研究所主任研究員陳佳媛在公開演講中盤點(diǎn)了大模型發(fā)展的最新趨勢(shì),萬(wàn)億參數(shù)大模型對(duì)于計(jì)算集群和互聯(lián)技術(shù)的最新要求,并提出全向智感互聯(lián)(OISA)的設(shè)計(jì)方案,以突破大規(guī)模卡間互聯(lián)的技術(shù)瓶頸。

  AI大模型發(fā)展仍遵循尺度定律

  當(dāng)前,AI大模型的發(fā)展呈現(xiàn)三大技術(shù)趨勢(shì)。從規(guī)模來看,大模型的技術(shù)發(fā)展總體上遵循尺度定律(ScalingLaw),參數(shù)規(guī)模從千億擴(kuò)展到萬(wàn)億,業(yè)界已出現(xiàn)多個(gè)萬(wàn)億參數(shù)模型,十萬(wàn)億模型即將出現(xiàn)。隨著參數(shù)量的增大,大模型處理問題的能力也隨之增強(qiáng)。例如,GPT-4(1.8萬(wàn)億參數(shù)量)在處理復(fù)雜任務(wù)方面的能力已經(jīng)遠(yuǎn)超GPT-3.5(1750億參數(shù)量)。

  從模型泛化程度來看,模型結(jié)構(gòu)在原有Transformer的基礎(chǔ)上,引入了擴(kuò)散模型、MoE(混合專家模型),使得模型的泛化能力增強(qiáng)、性能提升,大模型從支持自然語(yǔ)言的單一模態(tài)下的單一任務(wù),逐漸發(fā)展為支持語(yǔ)音、文字、圖像、視頻等多種模態(tài)下的多種任務(wù)。

  從架構(gòu)來看,模型架構(gòu)正在從資源密集的稠密結(jié)構(gòu)向資源節(jié)約的稀疏結(jié)構(gòu)轉(zhuǎn)變,通過只激活部分神經(jīng)元,展現(xiàn)出與稠密結(jié)構(gòu)相媲美的性能。

  對(duì)于大模型企業(yè)而言,能否搭建起大算力的基礎(chǔ)設(shè)施,成為能否實(shí)現(xiàn)大模型創(chuàng)新落地的關(guān)鍵。由此,國(guó)內(nèi)外大型科技公司正在積極投建萬(wàn)卡集群智算中心。例如,OpenAI用25000張A100GPU訓(xùn)練GPT-4。

  萬(wàn)億參數(shù)模型對(duì)卡間互聯(lián)提出更高要求

  大模型訓(xùn)練參數(shù)量的提高引發(fā)了業(yè)界對(duì)支撐該訓(xùn)練所需智算設(shè)備形態(tài)的思考:新一代智算設(shè)備需要具備更高密度的算存硬件、高性能無(wú)阻塞的網(wǎng)絡(luò)連接以及更高并行度的訓(xùn)練策略和通信范式。

  首先,萬(wàn)億模型對(duì)卡間互聯(lián)性能提出了更嚴(yán)苛的要求。

  千億模型的通信將服務(wù)器作為節(jié)點(diǎn),單節(jié)點(diǎn)的通信要求集中在8卡以內(nèi)。而在萬(wàn)億參數(shù)量模型中,網(wǎng)絡(luò)節(jié)點(diǎn)成為由百卡組建的“超節(jié)點(diǎn)”,同時(shí)MoE(混合專家模型)及并行策略被引入AlltoAll通信,其特征是單次通信數(shù)據(jù)量小,但通信頻繁,對(duì)高帶寬、低時(shí)延的要求更為迫切。陳佳媛認(rèn)為,服務(wù)器的發(fā)展方向是TP(張量模型并行)效率提升,實(shí)現(xiàn)數(shù)據(jù)在所有的GPU之間充分計(jì)算。

  其次,萬(wàn)億模型需要包含交換芯片的互聯(lián)拓?fù)洹?/p>

  當(dāng)智算中心向百卡級(jí)別的全互聯(lián)方向演進(jìn),傳統(tǒng)的直連拓?fù)浣Y(jié)構(gòu)不再適用,迫切需要轉(zhuǎn)向更高效、更先進(jìn)的互聯(lián)拓?fù)湓O(shè)計(jì)。在十億參數(shù)或中等模型中,互聯(lián)拓?fù)湟詷蚪拥男问綄?shí)現(xiàn),可以支持至多4卡的互聯(lián),單卡最大吞吐量為3個(gè)端口;在千億參數(shù)模型中,國(guó)內(nèi)主流方案是互聯(lián)拓?fù)渫ㄟ^直連拓?fù)洌訡ubeMesh或全互聯(lián)方式實(shí)現(xiàn),CubeMesh支持通信需求從4卡拓展到8卡,單卡最大吞吐4~6個(gè)端口,全互聯(lián)方式則可實(shí)現(xiàn)8卡全互聯(lián),單卡最大吞吐為7個(gè)端口,P2P帶寬為幾十個(gè)GB;而英偉達(dá)則通過8卡交換全互聯(lián)方式實(shí)現(xiàn),可將P2P帶寬提升到百GB級(jí)別。

  最后,萬(wàn)億模型需要異構(gòu)芯片之間構(gòu)建大容量統(tǒng)一內(nèi)存池。

  模型規(guī)模的增長(zhǎng)帶來了對(duì)GPU顯存容量需求的提高,單顆芯片往往難以滿足對(duì)超大顯存的需求。AI業(yè)務(wù)如搜索引擎、廣告投放和推薦系統(tǒng)等,涉及大量數(shù)據(jù)處理、復(fù)雜算法計(jì)算和精密系統(tǒng)控制,這要求CPU、GPU等多個(gè)芯片能夠高效協(xié)同作業(yè)。原有異構(gòu)芯片連接基于PCIe實(shí)現(xiàn),數(shù)據(jù)搬運(yùn)速度慢,同時(shí)帶寬受限,因此需要建立多異構(gòu)芯片統(tǒng)一內(nèi)存池,既在運(yùn)行流程上實(shí)現(xiàn)多處理器內(nèi)存一致性訪問,又實(shí)現(xiàn)近TB/s級(jí)帶寬能力。通過多異構(gòu)芯片的互聯(lián)實(shí)現(xiàn)統(tǒng)一內(nèi)存池,能夠提高顯存性能、提升開發(fā)效率,促進(jìn)CPU、GPU等有效協(xié)同。

  突破GPU卡間互聯(lián)技術(shù)瓶頸

  當(dāng)前,單芯片算力還跟不上生成式AI爆發(fā)性的需求。為滿足需求,各半導(dǎo)體廠商紛紛推出性能更優(yōu)的服務(wù)器芯片及更新的互聯(lián)技術(shù):行業(yè)標(biāo)桿英偉達(dá)陸續(xù)推出超級(jí)芯片GH200和GB200;IntelGaudi2采用8卡全互聯(lián)拓?fù)?,每個(gè)Guadi2芯片通過21個(gè)100GbRoCEv2端口與其他7個(gè)芯片互聯(lián);AMDMI300X通過7個(gè)AMDInfinityFabric鏈接組建8卡全互聯(lián)拓?fù)洹O啾扔ミ_(dá),盡管上述兩款芯片具有較強(qiáng)的GPU互聯(lián)能力,但由于缺少交換芯片,組建更大規(guī)模的縱向擴(kuò)展集群面臨挑戰(zhàn)。

  為解決這一問題,陳佳媛提出四個(gè)攻關(guān)方向:

  第一,突破交換芯片性能瓶頸。提高卡間互聯(lián)帶寬,提升端口數(shù)量以滿足集群算力縱向擴(kuò)展升級(jí)需求;降低通信延遲,減少GPU通信跳數(shù),優(yōu)化數(shù)據(jù)傳輸路徑。

  第二,實(shí)現(xiàn)超百卡大規(guī)模物理連接。統(tǒng)籌單層、分層的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),提高GPU間高速通信設(shè)計(jì)的點(diǎn)對(duì)點(diǎn)連接能力,實(shí)現(xiàn)P2P連接;優(yōu)化GPU內(nèi)存管理、計(jì)算和通信的重疊,實(shí)現(xiàn)軟硬件協(xié)同。

  第三,提升協(xié)議層面的互聯(lián)效率。在算法層面,兼顧流量控制和擁塞控制條件下,實(shí)現(xiàn)低時(shí)延的傳輸性能;在協(xié)議層面,使主流協(xié)議滿足傳輸需求;在數(shù)據(jù)包結(jié)構(gòu)層面,保證數(shù)據(jù)包格式同時(shí)滿足多種AI應(yīng)用需求。

  第四,要保持智算縱向擴(kuò)展過程中的生態(tài)開放,其中包括保持遵循開放的行業(yè)標(biāo)準(zhǔn),實(shí)現(xiàn)跨行業(yè)的廣泛合作和建立開放的信息共享機(jī)制。

  陳佳媛由此提出全向智感互聯(lián)的設(shè)計(jì),其內(nèi)涵包括:全方位連接,使GPU可以與任何一張GPU實(shí)現(xiàn)對(duì)等通信;優(yōu)化的報(bào)文格式,采用對(duì)GPU友好的報(bào)文格式以提高網(wǎng)絡(luò)利用率,設(shè)計(jì)具備動(dòng)態(tài)規(guī)模感知和簡(jiǎn)化機(jī)制的協(xié)議;實(shí)現(xiàn)高效物理傳輸,優(yōu)化解串器、控制器等物理層組件,引入共封裝光學(xué)技術(shù)降低功耗并提高信號(hào)完整性;靈活擴(kuò)展,當(dāng)需要增加更多GPU以提升計(jì)算能力時(shí),新的GPU可以無(wú)縫融入現(xiàn)有互聯(lián)網(wǎng)絡(luò)中。

  陳佳媛將這種設(shè)計(jì)架構(gòu)稱之為OISA——全向智感互聯(lián)。其關(guān)鍵技術(shù)特征在于架構(gòu)、物理、鏈路、事務(wù)等幾個(gè)核心優(yōu)化點(diǎn)。在架構(gòu)層面,優(yōu)化拓?fù)浣Y(jié)構(gòu),引入高性能交換芯片和GPU交換IP來提升P2P帶寬和研發(fā)效率。在物理層面,改進(jìn)信號(hào)傳輸技術(shù),減少噪聲和干擾,提高信號(hào)質(zhì)量和完整性,采用更先進(jìn)的物理介質(zhì)來提高數(shù)據(jù)傳輸效率,優(yōu)化高速高能效的電互聯(lián)接口解串器IP。在鏈路層面,優(yōu)化錯(cuò)誤檢測(cè)和快速恢復(fù)技術(shù),減少數(shù)據(jù)傳輸中的丟包和重傳,采用多個(gè)物理鏈路提供更高的帶寬和冗余路徑。在事務(wù)層面,精簡(jiǎn)協(xié)議,提高數(shù)據(jù)處理速度,重定義報(bào)文頭,增加GPU標(biāo)識(shí)以提高傳輸效率。

分享: