來源:數(shù)據(jù)觀綜合 時間:2024-03-19 15:46:18 作者:
當(dāng)?shù)貢r間3月18日,英偉達(dá)2024年GTC AI大會開幕,此次會議是GTC大會時隔五年首次重回線下。英偉達(dá)CEO黃仁勛發(fā)表名為“見證AI的變革時刻”的主題演講。
英偉達(dá)正式公布了搭載B200芯片的GB200GraceBlackwell超級芯片系統(tǒng),以及多模態(tài)人形機(jī)器人模型及機(jī)器人芯片、英偉達(dá)在AI軟件(NIM微服務(wù))、Omiverse云、具身智能方面的最新進(jìn)展。
01
下一代AI平臺:Blackwell
大會上,英偉達(dá)推出新一代AI圖形處理器芯片(GPU)架構(gòu)Blackwell,并重磅發(fā)布采用該架構(gòu)的GPU——B200和GB200產(chǎn)品系列。
在演講中,黃仁勛將Blackwell稱為“推動新一輪工業(yè)革命的引擎”,并定義其為一個平臺,基于Blackwell,衍生出GPU、AI超級芯片、服務(wù)器、大型計算集群、云服務(wù)等多套解決方案。
英偉達(dá)稱,Blackwell 擁有六項革命性的技術(shù),可以支持多達(dá) 10 萬億參數(shù)的模型進(jìn)行 AI 訓(xùn)練和實時 LLM 推理:
全球最強(qiáng)大的芯片:Blackwell 架構(gòu) GPU 由 2080 億個晶體管組成,采用量身定制的臺積電 4 納米(nm)工藝制造,兩個 reticle 極限 GPU 裸片將 10 TB/ 秒的芯片到芯片鏈路連接成單個統(tǒng)一的 GPU 。
第二代 Transformer 引擎:結(jié)合了 Blackwell Tensor Core 技術(shù)和 TensorRT-LLM 和 NeMo Megatron 框架中的 英偉達(dá)先進(jìn)動態(tài)范圍管理算法,Blackwell 將通過新的 4 位浮點 AI 支持雙倍的計算和模型大小推理能力。
第五代 NVLink:為提高數(shù)萬億參數(shù)和混合專家 AI 模型的性能,最新一代英偉達(dá) NVLink 為每個 GPU 提供了突破性的 1.8TB/s 雙向吞吐量,確保最復(fù)雜 LLM 之間多達(dá) 576 個 GPU 之間的無縫高速通信。
RAS 引擎 :Blackwell 支持的 GPU 包含一個專用引擎,實現(xiàn)可靠性、可用性和服務(wù)性。此外,Blackwell 架構(gòu)還增加了芯片級功能,利用基于 AI 的預(yù)防性維護(hù)進(jìn)行診斷和預(yù)測可靠性問題。這可以最大限度地延長系統(tǒng)正常運行時間,并提高大部署規(guī)模 AI 的彈性,使其能連續(xù)運行數(shù)周甚至數(shù)月,并降低運營成本。
安全人工智能:先進(jìn)的機(jī)密計算功能可在不影響性能的情況下保護(hù) AI 模型和客戶數(shù)據(jù),并支持新的本機(jī)接口加密協(xié)議,這對于醫(yī)療保健和金融服務(wù)等隱私敏感行業(yè)至關(guān)重要。
解壓縮引擎:專用解壓縮引擎支持最新格式,加快數(shù)據(jù)庫查詢,提供數(shù)據(jù)分析和數(shù)據(jù)科學(xué)的最高性能。未來幾年,在企業(yè)每年花費數(shù)百億美元的數(shù)據(jù)處理方面,將越來越多地由 GPU 加速。
英偉達(dá)稱,亞馬遜云 AWS、谷歌云、微軟云 Azure 和甲骨文云基礎(chǔ)設(shè)施 Oracle Cloud Infrastructure 將成為首批提供 Blackwell 支持實例的云服務(wù)提供商,英偉達(dá)云合作伙伴計劃的成員公司 Applied Digital、CoreWeave、Crusoe、IBM Cloud 和 Lambda 也將成為首批提供 Blackwell 實例的云服務(wù)提供商。
新GPU架構(gòu)“Blackwell”得名于美國數(shù)學(xué)家David Harold Blackwell,基于該架構(gòu)的GPU芯片B200采用臺積電4NP制造工藝,英偉達(dá)稱其可實現(xiàn)在十萬億級參數(shù)模型上的AI訓(xùn)練和實時LLM(大語言模型)推理。
B200由兩個超大型Die(裸片)封裝組合而成,內(nèi)含超過2080億個晶體管,是前一代800億個晶體管的兩倍以上,整塊芯片還封裝有192GB高速HBM3e顯存。
黃仁勛用一句話描述了B200相對于前代產(chǎn)品的更新之處:“這是塊非常非常大的GPU?!?/p>
“大”既體現(xiàn)在尺寸:Blackwell GPU的體積明顯大于H100,采用臺積電的4納米工藝蝕刻而成,整合了兩個獨立制造的裸晶,共有2080億個晶體管,而H100芯片所擁有的晶體管數(shù)量為800億個;“大”也體現(xiàn)在性能:單塊B200 GPU能夠提供高達(dá)20 PetaFlops(每秒千萬億次浮點運算)的FP4八精度浮點運算能力,而H100則能提供4 petaflops的FP4八精度浮點運算能力。
黃仁勛手持Blackwell GPU和上一代Hopper GPU供觀眾對比,明顯前者要大上一圈。黃仁勛稱,8年時間,英偉達(dá)從Pascal架構(gòu)到Blackwell架構(gòu),將AI計算性能提升了1000倍!
02
GPU新核彈:GB200
此外,英偉達(dá)還“大大加倍”,提供集成了兩塊B200 GPU和一塊Grace CPU的加速卡“GB200”。
據(jù)介紹,GB200 Grace Blackwell Superchip集成了1個Grace CPU和2個B200 GPU,號稱是全世界最強(qiáng)大的Grace超級芯片。
為了獲得最高的 AI 性能,GB200 驅(qū)動的系統(tǒng)可以與周一同時宣布的英偉達(dá) Quantum-X800 InfiniBand 和 Spectrum-X800 以太網(wǎng)平臺連接,這些平臺可提供速度高達(dá) 800Gb/s 的高級網(wǎng)絡(luò)。
GB200 是英偉達(dá) GB200 NVL72 的關(guān)鍵組件,GB200 NVL72 是一種多節(jié)點、液冷、機(jī)架規(guī)模系統(tǒng),適用于計算最密集的工作負(fù)載。它結(jié)合了 36 個 Grace Blackwell 超級芯片,其中包括通過第五代 NVLink 互連的 72 個 Blackwell GPU 和 36 個 Grace CPU。GB200 NVL72 還包括 NVIDIA BlueField?-3 數(shù)據(jù)處理單元,可在超大規(guī)模 AI 云中實現(xiàn)云網(wǎng)絡(luò)加速、可組合存儲、零信任安全性和 GPU 計算彈性。
GB200 NVL72 對于 LLM 推理工作負(fù)載的性能提升高達(dá) 30 倍,并將成本和能耗降低高達(dá) 25 倍。GB200 NVL72 平臺充當(dāng)單個 GPU 具有 1.4 exaflops 的 AI 性能和 30TB 的快速內(nèi)存,是最新 DGX SuperPOD 的構(gòu)建塊。
英偉達(dá)推出服務(wù)器主板 HGX B200,它通過 NVLink 連接八個 B200 GPU,以支持基于 x86 的生成式 AI 平臺。HGX B200 通過英偉達(dá) Quantum-2 InfiniBand 和 Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺支持高達(dá) 400Gb/s 的網(wǎng)絡(luò)速度。
英偉達(dá)沒有提供新款GB200或其使用系統(tǒng)的成本。據(jù)分析師估計,英偉達(dá)基于Hopper的H100芯片成本在2.5萬至4萬美元之間,而整個系統(tǒng)的成本高達(dá)20萬美元。
03
下一代AI超級計算機(jī):DGX SuperPOD
英偉達(dá)還發(fā)布了新一代 AI 超級計算機(jī) —— 搭載 NVIDIA GB200 Grace Blackwell 超級芯片的NVIDIA DGX SuperPOD 。這臺 AI 超級計算機(jī)可以用于處理萬億參數(shù)模型,能夠保證超大規(guī)模生成式 AI 訓(xùn)練和推理工作負(fù)載的持續(xù)運行。
全新 DGX SuperPOD 采用新型高效液冷機(jī)架級擴(kuò)展架構(gòu),基于 NVIDIA DGX GB200 系統(tǒng)構(gòu)建而成,在 FP4 精度下可提供 11.5 exaflops 的 AI 超級計算性能和 240 TB 的快速顯存,且可通過增加機(jī)架來擴(kuò)展性能。
與 NVIDIA H100 Tensor Core GPU 相比,GB200 超級芯片在大語言模型推理工作負(fù)載方面的性能提升了高達(dá) 30 倍。
“NVIDIA DGX AI 超級計算機(jī)是推進(jìn) AI 產(chǎn)業(yè)變革的工廠。新一代DGX SuperPOD 集 NVIDIA 加速計算、網(wǎng)絡(luò)和軟件方面的最新進(jìn)展于一體,能夠幫助每一個企業(yè)、行業(yè)和國家完善并生成自己的 AI。”黃仁勛表示。
Grace Blackwell 架構(gòu)的 DGX SuperPOD 由 8 個或以上的 DGX GB200 系統(tǒng)構(gòu)建而成,這些系統(tǒng)通過 NVIDIA Quantum InfiniBand 網(wǎng)絡(luò)連接,可擴(kuò)展到數(shù)萬個 GB200 超級芯片。用戶可通過 NVLink 連接 8 個 DGX GB200 系統(tǒng)中的 576 塊 Blackwell GPU,從而獲得海量共享顯存空間,來賦能下一代 AI 模型。
04
AI超級計算平臺:DGX B200
英偉達(dá)還發(fā)布了用于AI模型訓(xùn)練、調(diào)優(yōu)和推理的通用AI超級計算平臺NVIDIA DGX B200 系統(tǒng),這是DGX系列的第六代產(chǎn)品。
采用Blackwell架構(gòu)的全新 DGX B200系統(tǒng),包含8顆 NVIDIA B200 Tensor Core GPU和2顆第五代英特爾至強(qiáng)處理器。此外,還包含帶有8個NVIDIA ConnectX-7網(wǎng)卡和2顆BlueField-3 DPU的高性能網(wǎng)絡(luò),每個連接的帶寬高達(dá)400 Gb/s,可通過Quantum-2 InfiniBand和Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺支持更高的 AI 性能。
憑借全新 Blackwell架構(gòu)中的FP4精度特性,DGX B200系統(tǒng)可提供高達(dá)144 petaflops的 AI性能、1.4TB 海量的GPU顯存和64TB/s的顯存帶寬,從而使得該系統(tǒng)的萬億參數(shù)模型實時推理速度比上一代產(chǎn)品提升了15倍。
05
AI微服務(wù):企業(yè)AI的入口
“成熟的企業(yè)平臺坐擁數(shù)據(jù)金礦,這些數(shù)據(jù)可以轉(zhuǎn)化為生成式 AI 助手。我們與合作伙伴生態(tài)系統(tǒng)一起創(chuàng)建的這些容器化 AI 微服務(wù),是各行業(yè)企業(yè)成為 AI 公司的基石?!秉S仁勛表示。
為此,英偉達(dá)推出生成式 AI 微服務(wù),供開發(fā)者在已安裝 NVIDIA CUDA GPU 的系統(tǒng)中創(chuàng)建和部署生成式 AI 助手
英偉達(dá)推出數(shù)十項企業(yè)級生成式 AI 微服務(wù),企業(yè)可以利用這些微服務(wù)在自己的平臺上創(chuàng)建和部署定制應(yīng)用,同時保留對知識產(chǎn)權(quán)的完整所有權(quán)和控制權(quán)。
英偉達(dá)還推出二十多項全新微服務(wù),使全球醫(yī)療企業(yè)能夠在任何地點和任何云上充分利用生成式 AI 的最新進(jìn)展。
全新 NVIDIA 醫(yī)療微服務(wù)套件包含經(jīng)過優(yōu)化的 NVIDIA NIM AI 模型和工作流,并提供行業(yè)標(biāo)準(zhǔn)應(yīng)用編程接口(API),可用于創(chuàng)建和部署云原生應(yīng)用。它們提供先進(jìn)的醫(yī)學(xué)影像、自然語言和語音識別以及數(shù)字生物學(xué)生成、預(yù)測和模擬功能。
此外,NVIDIA 加速的軟件開發(fā)套件和工具,包括 Parabricks 、MONAI、NeMo 、Riva、Metropolis,現(xiàn)已通過 NVIDIA CUDA-X 微服務(wù)提供訪問,以加速藥物研發(fā)、醫(yī)學(xué)影像、基因組學(xué)分析等醫(yī)療工作流。
這些微服務(wù),其中 25 個已推出,可以加快醫(yī)療企業(yè)的轉(zhuǎn)型,因為生成式 AI 為制藥公司、醫(yī)生和醫(yī)院帶來了眾多的機(jī)會。其中包括篩選數(shù)萬億種藥物化合物以促進(jìn)醫(yī)學(xué)發(fā)展、收集更完善的患者數(shù)據(jù)以改進(jìn)早期疾病檢測、實現(xiàn)更智能的數(shù)字助手等。
06
X800系列:專為大規(guī)模AI量身訂制
英偉達(dá)還發(fā)布了專為大規(guī)模 AI 量身訂制的全新網(wǎng)絡(luò)交換機(jī) - X800 系列。
NVIDIA Quantum-X800 InfiniBand 網(wǎng)絡(luò)和 NVIDIA Spectrum -X800 以太網(wǎng)絡(luò)是全球首批高達(dá) 800Gb/s 端到端吞吐量的網(wǎng)絡(luò)平臺,將計算和 AI 工作負(fù)載的網(wǎng)絡(luò)性能提升到了一個新的水平,與其配套軟件強(qiáng)強(qiáng)聯(lián)手可進(jìn)一步加速各種數(shù)據(jù)中心中的 AI、云、數(shù)據(jù)處理和高性能計算(HPC)應(yīng)用,包括基于最新的 NVIDIA Blackwell 架構(gòu)產(chǎn)品的數(shù)據(jù)中心。
“NVIDIA 網(wǎng)絡(luò)平臺是 AI 超級計算基礎(chǔ)設(shè)施實現(xiàn)大規(guī)??蓴U(kuò)展的核心?;?NVIDIA X800 交換機(jī)的端到端網(wǎng)絡(luò)平臺,使新型 AI 基礎(chǔ)設(shè)施輕松運行萬億參數(shù)級生成式 AI 業(yè)務(wù)。”NVIDIA 網(wǎng)絡(luò)高級副總裁 Gilad Shainer 表示。
Quantum-X800 平臺包含了 NVIDIA Quantum Q3400 交換機(jī)和 NVIDIA ConnectX -8 SuperNIC,二者互連達(dá)到了業(yè)界領(lǐng)先的端到端 800Gb/s 吞吐量,交換帶寬容量較上一代產(chǎn)品提高了 5 倍,網(wǎng)絡(luò)計算能力更是憑借 NVIDIA 的 SHARP 技術(shù)(SHARPv4)提高了 9 倍,達(dá)到了 14.4Tflops。
Spectrum-X800 平臺為 AI 云和企業(yè)級基礎(chǔ)設(shè)施帶來優(yōu)化的網(wǎng)絡(luò)性能。借助 800Gb/s 的 Spectrum SN5600 交換機(jī)和 NVIDIA BlueField-3 SuperNIC,Spectrum-X800 平臺為多租戶生成式 AI 云和大型企業(yè)級用戶提供各種至關(guān)重要的先進(jìn)功能。
NVIDIA 提供面向萬億參數(shù)級 AI 模型性能優(yōu)化的網(wǎng)絡(luò)加速通信庫、軟件開發(fā)套件和管理軟件等全套軟件方案。
07
Omniverse牽手蘋果Vision Pro
大會上,令人印象深刻的還有英偉達(dá)Omniverse與蘋果Vision Pro的“強(qiáng)強(qiáng)聯(lián)合”。
在今年的GTC上,英偉達(dá)宣布,企業(yè)級數(shù)字孿生和沉浸式內(nèi)容創(chuàng)建中心Omniverse將在Apple Vision Pro上首次亮相。通過英偉達(dá)Omniverse的云API和圖形交付網(wǎng)絡(luò) (GDN),企業(yè)現(xiàn)在將可以輕松將3D應(yīng)用的OpenUSD(交互式通用場景描述)實時串流到Vision Pro混合頭顯中。
這種基于Omniverse的新工作流程將Apple Vision Pro突破性的高分辨率顯示器與英偉達(dá)強(qiáng)大的 RTX 云渲染相結(jié)合,只需設(shè)備和互聯(lián)網(wǎng)連接即可提供空間計算體驗。通過利用云軟件和硬件組件的框架,英偉達(dá)還能確保企業(yè)客戶可以在Vision Pro設(shè)備上利用數(shù)字孿生,而不會損失顯示或幀率質(zhì)量。
這意味著設(shè)計人員可以更加值得信賴方式與進(jìn)行混合現(xiàn)實交互,為空間計算開辟了更大的想象空間。英偉達(dá)表示,對于開發(fā)人員和獨立軟件供應(yīng)商,他們也正在構(gòu)建更多功能使他們能夠使用Vision Pro與應(yīng)用程序中的現(xiàn)有數(shù)據(jù)無縫交互。
08
下一個變革:機(jī)器人
“開發(fā)通用人形機(jī)器人基礎(chǔ)模型是當(dāng)今 AI 領(lǐng)域中最令人興奮的課題之一。世界各地的機(jī)器人技術(shù)領(lǐng)導(dǎo)者正在匯集各種賦能技術(shù),致力于在人工通用機(jī)器人領(lǐng)域?qū)崿F(xiàn)突破?!秉S仁勛表示。
在大會的最后,英偉達(dá)發(fā)布了人形機(jī)器人通用基礎(chǔ)模型Project GR00T,旨在進(jìn)一步推動其在機(jī)器人和具身智能方面的突破。GR00T驅(qū)動的機(jī)器人將能夠理解自然語言,并通過觀察人類行為來模仿動作——快速學(xué)習(xí)協(xié)調(diào)、靈活性和其它技能,以便導(dǎo)航、適應(yīng)現(xiàn)實世界并與之互動。
英偉達(dá)還發(fā)布了一款基于NVIDIA Thor 系統(tǒng)級芯片(SoC)的新型人形機(jī)器人計算機(jī)Jetson Thor,并對NVIDIA Isaac 機(jī)器人平臺進(jìn)行了重大升級,包括生成式 AI 基礎(chǔ)模型和仿真工具,以及 AI 工作流基礎(chǔ)設(shè)施。
Jetson Thor 是一個全新的計算平臺,能夠執(zhí)行復(fù)雜的任務(wù)并安全、自然地與人和機(jī)器交互,具有針對性能、功耗和尺寸優(yōu)化的模塊化架構(gòu)。
該SoC包括一個帶有 transformer engine 的下一代 GPU,其采用 NVIDIA Blackwell 架構(gòu),可提供每秒 800 萬億次8位浮點運算 AI 性能,以運行 GR00T 等多模態(tài)生成式 AI 模型。憑借集成的功能安全處理器、高性能 CPU 集群和 100GB 以太網(wǎng)帶寬,大大簡化了設(shè)計和集成工作。
據(jù)悉,英偉達(dá)正在為領(lǐng)先的人形機(jī)器人公司開發(fā)一個綜合的 AI 平臺,如 1X Technologies、Agility Robotics、Apptronik、波士頓動力公司、Figure AI、傅利葉智能、Sanctuary AI、宇樹科技和小鵬鵬行等。
09
英偉達(dá)芯片能火多久
從性能炸裂的全新超級芯片到軟件、行業(yè)應(yīng)用和機(jī)器人模型,用“AI春晚”來形容今年的英偉達(dá)GTC毫不夸張。
此前2月,英偉達(dá)發(fā)布了截至1月28日的2024財年第四財季財報。期內(nèi)實現(xiàn)營收221億美元,同比增長265%;凈利潤達(dá)123億美元,同比上漲769%;毛利率為76%。三項數(shù)據(jù)均高于市場分析師預(yù)測,并創(chuàng)下歷史新高。
經(jīng)濟(jì)日報發(fā)表文章《英偉達(dá)芯片能火多久》指出,“從當(dāng)前的種種跡象來看,遠(yuǎn)未結(jié)束?!贝饲埃簧偻顿Y者擔(dān)憂英偉達(dá)人工智能芯片供不應(yīng)求的局面難以持續(xù),以至于無法支撐其不斷攀升的股價。財報發(fā)布后,英偉達(dá)股價再度大漲,創(chuàng)下歷史新高。資本市場用這種方式給出了自己的觀點:這樣的擔(dān)憂純屬多慮。
面對英偉達(dá)出色的經(jīng)營數(shù)據(jù),眾多投資分析師不斷上調(diào)對英偉達(dá)表現(xiàn)和市場需求的預(yù)期。
券商伯恩斯坦分析師斯泰西·拉斯岡表示,英偉達(dá)在數(shù)據(jù)中心業(yè)務(wù)方面的機(jī)會巨大,而且還處于早期階段。黃仁勛在財報電話會上回答分析師提問時也表示,英偉達(dá)的人工智能芯片將在2024年乃至2025年以后依然擁有較高的市場需求。因為計算機(jī)行業(yè)正處于加速計算與生成式人工智能轉(zhuǎn)型的開端,全球各行業(yè)的相關(guān)需求正在激增,將推動全球數(shù)據(jù)中心基礎(chǔ)設(shè)施安裝量在未來5年內(nèi)翻一番。
經(jīng)濟(jì)日報文章認(rèn)為,此番預(yù)測中的具體數(shù)據(jù)尚難以驗證,但人工智能將成為新的技術(shù)革命已經(jīng)成為各行各業(yè)的共識,推動著芯片產(chǎn)品需求居高不下。
責(zé)任編輯:張薇