來(lái)源:CB Insights中國(guó) 時(shí)間:2022-09-20 13:24:29 作者:
隨著云計(jì)算、大數(shù)據(jù)和人工智能等信息技術(shù)的快速發(fā)展,各行業(yè)數(shù)字化水平的逐步提高,企業(yè)業(yè)務(wù)環(huán)境和計(jì)算場(chǎng)景日益復(fù)雜,數(shù)間的關(guān)聯(lián)關(guān)系也正在變得更加交錯(cuò)。在面對(duì)需要深度挖掘數(shù)據(jù)間復(fù)雜關(guān)聯(lián)關(guān)系的場(chǎng)景時(shí),傳統(tǒng)的關(guān)系型數(shù)據(jù)往往計(jì)算效率低下,難以滿足應(yīng)用需求。
在此背景下,圖便有了大展身手的空間。這里的“圖”(Graph)是針對(duì)圖論而言,并非常見(jiàn)的圖片/圖形(Picture/Image),而是指由一系列的點(diǎn)、邊構(gòu)成的圖數(shù)據(jù),能更自然、直觀地表述數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,是一種更符合人類思考方式的抽象表達(dá);圖計(jì)算技術(shù)基于圖數(shù)據(jù)開展分析和計(jì)算,從中挖掘出有價(jià)值的信息、知識(shí)和規(guī)律,為實(shí)際業(yè)務(wù)應(yīng)用提供支持。
圍繞中國(guó)圖計(jì)算技術(shù)及應(yīng)用話題,CB Insights中國(guó)正式發(fā)布《2022中國(guó)圖計(jì)算技術(shù)及應(yīng)用發(fā)展研究報(bào)告》,通過(guò)科研端文獻(xiàn)研究、產(chǎn)業(yè)調(diào)研與專家訪談等方式,從技術(shù)、人才、科研與產(chǎn)業(yè)四個(gè)維度展開分析,闡明行業(yè)發(fā)展背景、追溯技術(shù)發(fā)展歷程、拆解技術(shù)原理及優(yōu)勢(shì)、勾勒行業(yè)格局,并研判圖計(jì)算未來(lái)發(fā)展趨勢(shì)。
圖是對(duì)世界萬(wàn)物的一種自然表達(dá)
目前,圖數(shù)據(jù)庫(kù)和圖計(jì)算系統(tǒng)(也稱圖計(jì)算引擎)是圖計(jì)算技術(shù)領(lǐng)域的核心內(nèi)容,前者主要負(fù)責(zé)圖數(shù)據(jù)進(jìn)行增刪查改等操作,后者主要負(fù)責(zé)執(zhí)行對(duì)圖數(shù)據(jù)的深度分析處理。
圖丨圖數(shù)據(jù)庫(kù)與圖計(jì)算系統(tǒng)對(duì)比(來(lái)源:公開信息整理)
圖數(shù)據(jù)庫(kù)起源最早可追溯至上世紀(jì)面向樹狀結(jié)構(gòu)和屬性圖的數(shù)據(jù)庫(kù)及模型。
進(jìn)入21世紀(jì),第一款商用圖數(shù)據(jù)庫(kù)Neo4j公司于2007年成立,開始采用針對(duì)圖結(jié)構(gòu)進(jìn)行優(yōu)化的原生圖存儲(chǔ)模式,之后出現(xiàn)的其他圖數(shù)據(jù)庫(kù)如CosmosDB、OrientDB、ArangoDB等,開始朝著多模態(tài)、分布式架構(gòu)等各個(gè)方向探索和發(fā)展。
而在圖計(jì)算系統(tǒng)市場(chǎng),早期業(yè)界常用通用型計(jì)算框架(如MapReduce)等解決方案處理圖問(wèn)題,但它們?cè)谛阅艿确矫嫔胁槐M如人意。
2010年,Google提出了基于BSP模型的Pregel分布式圖計(jì)算系統(tǒng),與之前方案相比在編程模型、同步控制等方面提供了更優(yōu)的解決方案;
之后CMU(卡內(nèi)基梅隆大學(xué))Select實(shí)驗(yàn)室提出了基于GAS模型的GraphLab系統(tǒng),二者為后續(xù)其他圖計(jì)算系統(tǒng)設(shè)計(jì)帶來(lái)了深遠(yuǎn)的影響。
2015年前,這一階段的圖計(jì)算市場(chǎng)依然以海外廠商為主。直至2015-2016年左右,隨著應(yīng)用市場(chǎng)逐步打開,國(guó)內(nèi)圖計(jì)算領(lǐng)域?qū)W術(shù)界和產(chǎn)業(yè)界開始發(fā)力,市場(chǎng)熱度逐漸提升。
2016年,清華計(jì)算機(jī)系師生陳文光、朱曉偉在OSDI(USENIX Symposium on Operating Systems Design and Implementation)學(xué)術(shù)會(huì)議上發(fā)表了《Gemini:以計(jì)算為中心的分布式圖計(jì)算系統(tǒng)》論文,提出了國(guó)內(nèi)圖計(jì)算系統(tǒng)領(lǐng)域重要成果之一的Gemini;同時(shí),一批具有深厚學(xué)術(shù)研究背景的優(yōu)秀學(xué)者開始進(jìn)入產(chǎn)業(yè)界,嘗試將已有學(xué)術(shù)成果轉(zhuǎn)化為落地應(yīng)用。
不僅螞蟻、阿里、騰訊等大廠開始根據(jù)自身業(yè)務(wù)需求切入圖計(jì)算領(lǐng)域展開研究,市場(chǎng)上也涌現(xiàn)出了一批深耕圖計(jì)算行業(yè)的垂直初創(chuàng)企業(yè),共同展開對(duì)圖計(jì)算領(lǐng)域的商業(yè)化探索。
從投融資情況市場(chǎng)來(lái)看,根據(jù)CB Insights數(shù)據(jù),過(guò)去三年間國(guó)內(nèi)外共有近15家企業(yè)獲得了超過(guò)20筆融資。其中,海外知名圖數(shù)據(jù)庫(kù)企業(yè)Neo4j在2021年6月的F輪融資中獲得3.25億美元投資,成為數(shù)據(jù)庫(kù)歷史上最大的一筆投資。
此外,根據(jù)知名數(shù)據(jù)庫(kù)排名網(wǎng)站DB-Engines的Popularity指數(shù),按數(shù)據(jù)庫(kù)類型來(lái)看,自2013年以來(lái)圖數(shù)據(jù)庫(kù)一直是受到最多關(guān)注的數(shù)據(jù)庫(kù)類型,遙遙領(lǐng)先于其他類型的數(shù)據(jù)庫(kù),而且關(guān)注熱度仍在持續(xù)攀升中。
圖|各類數(shù)據(jù)庫(kù)近十年來(lái)熱度變化(來(lái)源:DB-Engines.com)
近十年學(xué)術(shù)研究熱度迅速攀升
近年來(lái)圖計(jì)算學(xué)術(shù)研究領(lǐng)域發(fā)展迅速,從2014年到2021年間,圖計(jì)算領(lǐng)域論文數(shù)量呈現(xiàn)翻倍增長(zhǎng)趨勢(shì),以中美兩國(guó)學(xué)者為首。
圖|全球圖計(jì)算相關(guān)主題論文發(fā)表數(shù)量(單位:篇;數(shù)據(jù)來(lái)源:Web of Science)
目前,清華大學(xué)、北京大學(xué)、中國(guó)科學(xué)院以及華中科技大學(xué)等是國(guó)內(nèi)圖計(jì)算領(lǐng)域研究的先驅(qū),貢獻(xiàn)了國(guó)內(nèi)大多數(shù)高被引用圖計(jì)算論文。
下表為國(guó)內(nèi)圖計(jì)算領(lǐng)域的部分研究學(xué)者,主要研究領(lǐng)域橫跨了圖數(shù)據(jù)、操作系統(tǒng)、人工智能、大數(shù)據(jù)、分布式系統(tǒng)等,他們不僅在基礎(chǔ)理論層面研究深耕,也在產(chǎn)業(yè)化實(shí)踐方面不斷更迭創(chuàng)新,助力圖計(jì)算在大數(shù)據(jù)的沃土里生根發(fā)芽。
圖|圖計(jì)算領(lǐng)域部分代表研究學(xué)者(數(shù)據(jù)來(lái)源:CB Insights中國(guó))
產(chǎn)業(yè)生態(tài)參與者眾多,巨頭和初創(chuàng)企業(yè)各施所長(zhǎng)
現(xiàn)階段,圖數(shù)據(jù)庫(kù)的參與者以產(chǎn)業(yè)界為主,圖計(jì)算系統(tǒng)則以學(xué)術(shù)界和產(chǎn)業(yè)界企業(yè)的開源方案為主。
圖數(shù)據(jù)庫(kù)領(lǐng)域不僅有互聯(lián)網(wǎng)/公有云廠商(如螞蟻、騰訊、AWS、Microsoft Azure等),還有一眾圖計(jì)算領(lǐng)域垂直企業(yè)(如Neo4j、TigerGraph、創(chuàng)鄰科技、歐若數(shù)網(wǎng)等)、傳統(tǒng)數(shù)據(jù)庫(kù)廠商(Oracle、IBM等)也已經(jīng)入局。
圖丨圖計(jì)算行業(yè)部分參與者(來(lái)源:CB Insights中國(guó))
圖計(jì)算下游主要面向應(yīng)用開發(fā)商和軟件集成商,例如知識(shí)圖譜開發(fā)商等。它們負(fù)責(zé)在圖數(shù)據(jù)庫(kù)及圖計(jì)算系統(tǒng)的查詢分析能力基礎(chǔ)上,為客戶提供完整的解決方案。
目前,圖計(jì)算的終端客戶主要集中在金融、能源、政企、社交網(wǎng)絡(luò)、搜索引擎、推薦系統(tǒng)等領(lǐng)域。
例如,在金融風(fēng)控領(lǐng)域,圖計(jì)算技術(shù)可以幫助挖掘個(gè)體之間的關(guān)聯(lián)關(guān)系,進(jìn)一步發(fā)現(xiàn)潛在風(fēng)險(xiǎn),在信貸風(fēng)險(xiǎn)評(píng)估、反洗錢、反欺詐、資金追蹤、潛客發(fā)現(xiàn)等場(chǎng)景中,能幫助挖掘出企業(yè)間循環(huán)擔(dān)保、薅羊毛灰黑產(chǎn)等重大風(fēng)險(xiǎn);
在電力領(lǐng)域,圖計(jì)算技術(shù)可以幫助更高效、實(shí)時(shí)地管理電力設(shè)備并監(jiān)控其運(yùn)行狀態(tài);在社交網(wǎng)絡(luò)領(lǐng)域,圖計(jì)算可以通過(guò)社區(qū)發(fā)現(xiàn)等圖算法深度挖掘用戶之間的聯(lián)系。
圖丨圖計(jì)算產(chǎn)業(yè)鏈(來(lái)源:CB Insights中國(guó))
以螞蟻集團(tuán)為例。螞蟻集團(tuán)將圖技術(shù)應(yīng)用于自身金融風(fēng)控業(yè)務(wù)之中,以應(yīng)對(duì)日益復(fù)雜的風(fēng)險(xiǎn)形勢(shì),提高對(duì)于隱形的、有組織的團(tuán)伙化犯罪風(fēng)險(xiǎn)的識(shí)別和挖掘能力。螞蟻安全團(tuán)隊(duì)在圖技術(shù)基礎(chǔ)上建設(shè)了全圖風(fēng)控架構(gòu),作為應(yīng)對(duì)復(fù)雜風(fēng)險(xiǎn)形勢(shì)的下一代風(fēng)控基礎(chǔ)設(shè)施。
全圖風(fēng)控即全域一張圖,在整個(gè)風(fēng)控的生命周期,包括風(fēng)險(xiǎn)感知、風(fēng)險(xiǎn)識(shí)別、風(fēng)險(xiǎn)管控、風(fēng)險(xiǎn)審理、風(fēng)險(xiǎn)分析等環(huán)節(jié)中提供保障,提供團(tuán)伙挖掘、資金鏈路識(shí)別、交易可信識(shí)別等核心服務(wù)能力。
此外,除了用傳統(tǒng)的多度查詢來(lái)進(jìn)行風(fēng)險(xiǎn)鏈路判斷外,還引入模式識(shí)別的方式(菱形/三角型等)、社區(qū)發(fā)現(xiàn)的算法等來(lái)應(yīng)對(duì)更加復(fù)雜的場(chǎng)景。
目前,受制于整體市場(chǎng)對(duì)圖計(jì)算技術(shù)的認(rèn)知仍未成熟,圖計(jì)算行業(yè)仍處于商業(yè)化初期階段。
一方面,客戶對(duì)圖數(shù)據(jù)庫(kù)及圖計(jì)算技術(shù)認(rèn)知不足,在如何理解圖能帶來(lái)的價(jià)值、如何進(jìn)行圖數(shù)據(jù)庫(kù)選型、如何做好二次開發(fā)和持續(xù)運(yùn)維等問(wèn)題上,依然困難重重。
另一方面,圖計(jì)算廠商對(duì)客戶的業(yè)務(wù)場(chǎng)景不夠了解,對(duì)于如何幫助客戶明確需求,將客戶業(yè)務(wù)場(chǎng)景存在的痛點(diǎn)轉(zhuǎn)化為圖的問(wèn)題,如何在技術(shù)角度進(jìn)一步提升產(chǎn)品力以更好地滿足客戶需求,如何將圖技術(shù)應(yīng)用到更廣的領(lǐng)域等問(wèn)題,未來(lái)依然有很大的潛在發(fā)展空間。
在商業(yè)模式上,企業(yè)面臨著開源和閉源的選擇,開源有助于企業(yè)建立開發(fā)者生態(tài),快速迭代完善產(chǎn)品,閉源則可幫助企業(yè)保持商業(yè)現(xiàn)金流。
目前不少項(xiàng)目方選擇通過(guò)OpenCore的模式開源,即核心模塊開源、進(jìn)階版功能收費(fèi)的模式展開商業(yè)化;另外也有部分廠商出于現(xiàn)有開源生態(tài)不成熟、產(chǎn)品競(jìng)爭(zhēng)激烈等原因考慮,選擇閉源策略。
目前,圖計(jì)算領(lǐng)域知名的開源產(chǎn)品包括Neo4j(圖數(shù)據(jù)庫(kù))、ArangoDB(圖數(shù)據(jù)庫(kù))、GraphX(圖計(jì)算系統(tǒng))、GraphScope(圖計(jì)算系統(tǒng))、Plato(圖計(jì)算系統(tǒng))等。此外,螞蟻集團(tuán)的大規(guī)模圖計(jì)算系統(tǒng)關(guān)鍵底座TuGraph圖數(shù)據(jù)庫(kù)單機(jī)版,也在2022年9月的世界人工智能大會(huì)上宣布正式開源。
以圖的角度來(lái)思考問(wèn)題,用圖的技術(shù)來(lái)解決問(wèn)題
作為一種理解世界的新方式,圖正憑借其對(duì)復(fù)雜關(guān)聯(lián)關(guān)系的強(qiáng)刻畫能力,贏得了越來(lái)越多的關(guān)注。
隨著越來(lái)越多的行業(yè)和領(lǐng)域開始以圖的方式存儲(chǔ)、分析數(shù)據(jù)并展開更多應(yīng)用,大規(guī)模圖數(shù)據(jù)的查詢和計(jì)算對(duì)系統(tǒng)的計(jì)算性能等各個(gè)方面提出了挑戰(zhàn),圖計(jì)算技術(shù)正向著多(大規(guī)模)、快(低延時(shí))、好(高可靠)、?。ǖ统杀荆┑姆较蛱剿鳌?/p>
對(duì)此,學(xué)術(shù)界和產(chǎn)業(yè)界的研究者對(duì)圖計(jì)算部署架構(gòu)、計(jì)算模型等方面的設(shè)計(jì)優(yōu)化進(jìn)行了大量的研究,例如分布式并行架構(gòu)的優(yōu)化、與高性能計(jì)算的合作等。
另一方面,以圖神經(jīng)網(wǎng)絡(luò)GNN為代表的圖學(xué)習(xí),結(jié)合了圖計(jì)算技術(shù)與機(jī)器學(xué)習(xí)技術(shù),近年來(lái)也在人工智能領(lǐng)域掀起了研究熱潮。
圖學(xué)習(xí)通過(guò)將已有圖結(jié)構(gòu)數(shù)據(jù)與機(jī)器學(xué)習(xí)模型結(jié)合,以滿足日益復(fù)雜的圖計(jì)算需求,并試圖解決過(guò)往復(fù)雜模型存在的可解釋性低下等問(wèn)題。從人工智能行業(yè)的角度來(lái)看,圖學(xué)習(xí)體現(xiàn)了人工智能符號(hào)主義與連接主義兩大流派的融合應(yīng)用。
長(zhǎng)遠(yuǎn)來(lái)看,對(duì)于圖計(jì)算領(lǐng)域的眾多學(xué)術(shù)機(jī)構(gòu)和廠商來(lái)說(shuō),未來(lái)在圖計(jì)算產(chǎn)業(yè)生態(tài)建設(shè)上還面臨著諸多挑戰(zhàn),有待學(xué)術(shù)界和產(chǎn)業(yè)界長(zhǎng)期的共同努力。
企業(yè)需要提高客戶對(duì)圖計(jì)算技術(shù)的認(rèn)知水平,幫助已經(jīng)習(xí)慣以關(guān)系型數(shù)據(jù)模式理解業(yè)務(wù)的一線人員順利理解圖數(shù)據(jù)并開展應(yīng)用,也讓更多的企業(yè)意識(shí)到可以用圖解決業(yè)務(wù)中現(xiàn)有問(wèn)題;同時(shí)需要校企聯(lián)動(dòng),培養(yǎng)出更多優(yōu)秀的圖計(jì)算領(lǐng)域研究學(xué)者和開發(fā)運(yùn)維人才;在底層能力基礎(chǔ)上建立起完善的工具和應(yīng)用生態(tài),打開更廣闊的應(yīng)用場(chǎng)景。
此外,圖計(jì)算領(lǐng)域的標(biāo)準(zhǔn)化體系仍有待完善,目前在查詢語(yǔ)言、產(chǎn)品測(cè)試基準(zhǔn)等方面已經(jīng)開始逐步建立中。
具體內(nèi)容如下
責(zé)任編輯:藺弦弦