精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

首頁 資訊正文

攜手UALink,阿里云磐久AI Infra 2.0服務(wù)器亮相2024 OCP全球峰會

  10月15日-17日,一年一度的開放計算全球峰會(OCP Global Summit)在美國加州圣何塞(San Jose)召開,本次峰會以“從創(chuàng)新到影響力(From Ideas to Impact”)”為主題盛大開幕,吸引全球7000多位基礎(chǔ)設(shè)施軟硬件技術(shù)和應(yīng)用領(lǐng)域的專業(yè)人士參會。作為全球最具影響力的的基礎(chǔ)設(shè)施和開放計算領(lǐng)域標志性盛會,特別是在今年OCP基金會重磅宣布其人工智能開放系統(tǒng)戰(zhàn)略計劃后,2024 OCP全球峰會上專門設(shè)置人工智能特別關(guān)注議程(Special Focus Tracks),重點推動AI基礎(chǔ)設(shè)施領(lǐng)域的技術(shù)生態(tài)建設(shè)。

  阿里云服務(wù)器研發(fā)資深總監(jiān)文芳志受邀和UALink聯(lián)盟主席Kurtis Bowman聯(lián)合發(fā)表了題為《UALink: Pioneering the AI Accelerator Revolution》的演講,重點闡述了AI服務(wù)器Scale UP互連技術(shù)領(lǐng)域的發(fā)展趨勢,UALink標準的路線圖,UALink聯(lián)盟和ALink System產(chǎn)業(yè)生態(tài)未來的合作潛力,以及阿里云磐久 AI Infra 2.0服務(wù)器的落地實踐思路。

  行業(yè)領(lǐng)先的AI芯片、服務(wù)器和CSP廠商聯(lián)合發(fā)起的UALink協(xié)議,將是一項徹底改變AI服務(wù)器Scale UP互連技術(shù)生態(tài)系統(tǒng)的行業(yè)新標準。相比較超級以太網(wǎng)聯(lián)盟 (UEC) 的協(xié)議標準專注于Scale out擴展能力,UALink協(xié)議憑借高性能內(nèi)存語義訪問的原生支持、顯存共享,支持Switch組網(wǎng)模式,以及超高帶寬、超低時延能力等性能優(yōu)勢,正在迅速構(gòu)建起一個AI服務(wù)器Scale UP互連技術(shù)的超級開放生態(tài)。按照計劃,UALink聯(lián)盟將于10月底正式成立并開始吸納成員加入,并在年底對外發(fā)布第一版UALink spec。

  UALink標準作為目前最具潛力的AI服務(wù)器Scale UP互連開放標準,如何在業(yè)界特別是在中國市場落地實踐是一個巨大挑戰(zhàn),ALink System(ALS)產(chǎn)業(yè)生態(tài)應(yīng)運而生。ALS提供具備性能競爭力和統(tǒng)一標準的互連系統(tǒng),包括ALS-D數(shù)據(jù)面和ALS-M管控面兩個主要組成部分,為AI訓(xùn)推場景提供豐富的能力和特性支持。

  ALS-D將支持UALink國際標準,形成極具性能競爭力的數(shù)據(jù)面方案。當(dāng)前以推理和訓(xùn)練場景為主的AI應(yīng)用,在Scale Up網(wǎng)絡(luò)上具有并行切分算法、大顯存共享、GPU超多核內(nèi)存語義編程等多種顯著特點。ALS-D數(shù)據(jù)面互連采用UALink協(xié)議,除了原生支持高性能內(nèi)存語義訪問、顯存共享,支持Switch組網(wǎng)模式,性能上具備超高帶寬、超低時延能力外,還增加定義了在網(wǎng)計算等特性。

  ALS-M可以為不同芯片方案提供標準化的接入方案,符合規(guī)范的設(shè)備均可靈活接入應(yīng)用方系統(tǒng)。無論是對開放生態(tài)還是廠商專有互連協(xié)議,ALS使用統(tǒng)一的軟件接口。同時,ALS-M為云計算等集群管理場景,提供單租、多租等靈活和彈性的配置能力。

  正是遵循ALink System的規(guī)范,阿里云自主設(shè)計了面向下一代超大規(guī)模AI集群的磐久AI Infra 2.0服務(wù)器,貫穿了開放生態(tài)、高能效、高性能和高可用的設(shè)計理念。AI Infra 2.0服務(wù)器開放性地定義了AI計算節(jié)點和Scale Up/Scale Out互連系統(tǒng),可以在統(tǒng)一的硬件架構(gòu)下支持業(yè)界主流AI方案,引領(lǐng)AI領(lǐng)域的“一云多芯”。

  互連系統(tǒng)ALink System全面兼容國際標準UALink生態(tài),可以與行業(yè)伙伴開放共建超高性能、超大規(guī)模的Scale UP集群互連能力,一級互連64-80個節(jié)點,二級互連可達2000以上節(jié)點,提供了PB級共享顯存和TB級互連帶寬。

  AI計算節(jié)點內(nèi)集成阿里自研CIPU 3.0芯片,既能支持高帶寬大規(guī)模AI服務(wù)器實現(xiàn)Scale Out網(wǎng)絡(luò)擴展,又能兼顧云網(wǎng)絡(luò)彈性、安全的要求。

  硬件工程方面,AI Infra 2.0服務(wù)器單機柜可以支持最大80個AI計算節(jié)點,業(yè)界密度最高;在業(yè)界率先采用400V PSU,單體供電效率可達98%,整體供電效率提高2%。在散熱設(shè)計上,機柜級液冷方案可以根據(jù)實際負載動態(tài)調(diào)整CDU冷卻能力來降低能耗,單柜冷卻系統(tǒng)節(jié)能30%。最后,在運維管理上,全新的CableCartridge后維護設(shè)計,支持全盲插,零理線易運維、零誤操作,維護效率提升50%。

  可靠性方面,AI Infra 2.0服務(wù)器支持彈性節(jié)點、智能路由、高可靠供電、分布式CDU等技術(shù),可以實時監(jiān)控、探測各種硬件故障并自愈,硬件的故障域也縮減到節(jié)點級。

  在ALink System產(chǎn)業(yè)生態(tài)建設(shè)上,阿里云一貫秉持開放合作的策略,推動互連技術(shù)領(lǐng)域的發(fā)展和繁榮。自今年9月ALink System產(chǎn)業(yè)生態(tài)在開放數(shù)據(jù)中心大會上正式發(fā)布以來,目前已有20多家AI芯片、互連芯片、服務(wù)器整機硬件和IP設(shè)計廠商加入,成員單位已就相關(guān)協(xié)議標準制定和實行路徑選擇展開交流。

  除了積極擁抱UALink和牽頭成立ALink System產(chǎn)業(yè)生態(tài),阿里云還是OPC、CXL、UCIe和UEC等多個互連技術(shù)行業(yè)組織的創(chuàng)始成員或技術(shù)委員會成員,并用實際行動支持相關(guān)開放互連技術(shù)標準的制定和落地。

責(zé)任編輯:張薇

分享: