來源:阿里數(shù)據(jù)AliData 時間:2017-10-18 14:53:20 作者:
【前沿干貨】
— 數(shù)據(jù)觀導(dǎo)讀 —
近日,在2017杭州云棲大會-阿里大數(shù)據(jù)分論壇上,阿里巴巴數(shù)據(jù)技術(shù)及產(chǎn)品部高級技術(shù)專家張磊發(fā)表了主題為《阿里巴巴全域數(shù)據(jù)建設(shè)》的演講,分享了阿里在大數(shù)據(jù)領(lǐng)域沉淀的技術(shù)能力和應(yīng)用實踐。
阿里巴巴數(shù)據(jù)技術(shù)及產(chǎn)品部定位阿里數(shù)據(jù)中臺:以全域大數(shù)據(jù)建設(shè)為中心,技術(shù)上覆蓋整個大數(shù)據(jù)從采集、加工、服務(wù)、消費的全鏈路的各個環(huán)節(jié),對內(nèi)對外提供服務(wù)。豐富的大數(shù)據(jù)生態(tài)組件,構(gòu)成了阿里的核心數(shù)據(jù)能力,通過大數(shù)據(jù)生態(tài)組件,可以迅速的提升數(shù)據(jù)應(yīng)用的迭代能力,人人都有可能成為大數(shù)據(jù)專家。
在全域數(shù)據(jù)建設(shè)過程中,還構(gòu)建了阿里巴巴OneData體系作為大數(shù)據(jù)標(biāo)準(zhǔn)化規(guī)范,從方法論到落地實踐;從對指標(biāo)定義、數(shù)據(jù)研發(fā)、數(shù)據(jù)服務(wù)的口徑管理到數(shù)據(jù)規(guī)范定義、模型規(guī)范定義、研發(fā)流程的規(guī)范化;每個環(huán)節(jié)均有對應(yīng)工具進行嚴(yán)格保障,并做到方便管理、問題追溯。
↓詳情參看下文實錄+PPT↓
{ Part1 }
數(shù)據(jù)中臺-阿里數(shù)據(jù)技術(shù)及產(chǎn)品部定位
2016年阿里巴巴集團提出中臺概念,阿里巴巴數(shù)據(jù)技術(shù)及產(chǎn)品部承載了集團數(shù)據(jù)中臺的工作,其核心就是建設(shè)全域大數(shù)據(jù)。
◎ 從內(nèi)容上看,我們管理和運維著阿里巴巴集團最核心的基礎(chǔ)數(shù)據(jù);
◎ 從技術(shù)上看,我們覆蓋了從數(shù)據(jù)采集、計算加工到數(shù)據(jù)服務(wù)、數(shù)據(jù)應(yīng)用等數(shù)據(jù)鏈路上的每一個環(huán)節(jié),為阿里生態(tài)內(nèi)外的業(yè)務(wù)、用戶、中小企業(yè)提供全鏈路、全渠道的數(shù)據(jù)服務(wù)。
舉個例子,被大家熟知的雙11當(dāng)天可見炫酷數(shù)據(jù)大屏就是由我們部門負(fù)責(zé)的。
【阿里數(shù)據(jù)中臺全景圖】
上圖是阿里數(shù)據(jù)中臺的全景圖,從這個圖中我們可以看見實際上阿里數(shù)據(jù)中臺在架構(gòu)的組成上,呈現(xiàn)了一個“四橫三縱”的結(jié)構(gòu),底層的基礎(chǔ)設(shè)施來自于阿里云平臺。
◎ 先來講四橫——
整張架構(gòu)圖從下往上看,最下面這塊內(nèi)容主要從數(shù)據(jù)采集和接入為角度,按照業(yè)態(tài)接入數(shù)據(jù)(比如淘寶、天貓、盒馬等),我們把這些數(shù)據(jù)抽取到計算平臺;接著通過OneData體系,以“業(yè)務(wù)板塊+分析維度”為架構(gòu)去構(gòu)建“公共數(shù)據(jù)中心”;再基于公共數(shù)據(jù)中心在上層根據(jù)業(yè)務(wù)需求去建設(shè):消費者數(shù)據(jù)體系、企業(yè)數(shù)據(jù)體系、內(nèi)容數(shù)據(jù)體系等;經(jīng)過深度加工后,數(shù)據(jù)就可以發(fā)揮其價值被產(chǎn)品、業(yè)務(wù)所用;最后通過統(tǒng)一的數(shù)據(jù)服務(wù)中間件“OneService”提供統(tǒng)一數(shù)據(jù)服務(wù)。
在阿里內(nèi)部,阿里數(shù)據(jù)平臺上的數(shù)據(jù)產(chǎn)品已有幾十種,每天有上萬內(nèi)部員工在使用數(shù)據(jù)產(chǎn)品;我們的官方統(tǒng)一數(shù)據(jù)產(chǎn)品平臺“生意參謀”累計服務(wù)了超2000萬商家……
◎ 接下來是三縱——
基于阿里巴巴如此大體量的數(shù)據(jù)體系建設(shè)背后,我們必須要通過大量工具去保證快速、高效、高質(zhì)量數(shù)據(jù)接入,這部分我們通過智能數(shù)據(jù)研發(fā)平臺來實現(xiàn),將我們的理論及實踐過程,通過一整套的工具體系及研發(fā)流程去保障落地,確保每一個團隊,每一個BU,通過統(tǒng)一規(guī)則去建設(shè)數(shù)據(jù)體系;同時,當(dāng)數(shù)據(jù)多了以后最直接問題就是成本,因此我們還建立了統(tǒng)一的數(shù)據(jù)質(zhì)量管理平臺。
{ Part2 }
全域數(shù)據(jù)到底是什么?
阿里巴巴目前生態(tài)建設(shè)包括了核心的電商業(yè)務(wù),淘寶、天貓、聚劃算等,同時還有文娛板塊的優(yōu)酷、土豆、UC瀏覽器等,當(dāng)然還有本地化服務(wù)比如口碑、餓了么等?;跇I(yè)態(tài)背后還有螞蟻、菜鳥、阿里媽媽、阿里云等等。
這一系列的生態(tài)數(shù)據(jù)我們都會集中進行存儲和管理,并構(gòu)成了我們的全域數(shù)據(jù)所覆蓋的范圍。
一方面,上述每一種業(yè)態(tài)都是全域數(shù)據(jù)的來源;另外一方面基于這些優(yōu)質(zhì)的數(shù)據(jù),進行解析和處理,再反哺給到業(yè)務(wù)。我們要實現(xiàn)的是:利用全域數(shù)據(jù)去驅(qū)動業(yè)務(wù),讓數(shù)據(jù)發(fā)揮更大價值。
以手淘為例,手機屏幕是非常小的,我們?nèi)绾卧谟邢薜目臻g內(nèi)展示給到用戶看到他們真正希望看見的內(nèi)容?“千人千面”這一應(yīng)用的背后,實際上就是基于大數(shù)據(jù)的算法應(yīng)用場景,來實現(xiàn)的。還有芝麻信用、菜鳥的智能物流、阿里媽媽的精準(zhǔn)營銷等等,它們都是通過大數(shù)據(jù)驅(qū)動之下,構(gòu)成了業(yè)務(wù)與數(shù)據(jù)聯(lián)通的閉環(huán)。
{ Part3 }
阿里全域數(shù)據(jù)建設(shè)的初衷
我們?yōu)槭裁匆鋈驍?shù)據(jù)?
◎ 首先,降低成本——
大家都知道大數(shù)據(jù)建設(shè)的資金投入其實是非常巨大的。比如基礎(chǔ)建設(shè)的投入、機房、機架、服務(wù)器、網(wǎng)絡(luò)帶寬,包括軟件平臺建設(shè),開發(fā)運維團隊的組建等等,都會耗費企業(yè)大量的資金和人力。以優(yōu)土(優(yōu)酷土豆的簡稱)為例,優(yōu)土去年加入阿里巴巴集團之后,我們開始啟動數(shù)據(jù)融合項目:在此之前,優(yōu)土有自己的Hadoop集群,阿里巴巴的數(shù)據(jù)規(guī)模則大的多,將優(yōu)土數(shù)據(jù)融合到阿里大平臺上,可以讓優(yōu)土獲得更多彈性資源,也可以在基礎(chǔ)設(shè)施運維、人力運維、平臺運維上復(fù)用集團的技術(shù)體系;基于OneData大數(shù)據(jù)建設(shè)體系、統(tǒng)一的數(shù)據(jù)采集規(guī)范等,減少人力及運維成本。當(dāng)項目完結(jié)后,我們發(fā)現(xiàn)目前優(yōu)土在數(shù)據(jù)建設(shè)上的成本不到原來50%。
◎ 其次,技術(shù)賦能——
客觀來說,在阿里生態(tài)內(nèi)公司的數(shù)據(jù)能力參差不齊,因此為了賦能其他生態(tài)公司,我們通過短時間的數(shù)據(jù)體系遷移,讓他們擁有和阿里集團同樣的大數(shù)據(jù)能力。上述的優(yōu)土融合項目就是通過半年時間,實現(xiàn)了技術(shù)賦能。
◎ 第三,數(shù)據(jù)連接——
我們知道數(shù)據(jù)孤島的現(xiàn)象不光存在于傳統(tǒng)行業(yè),互聯(lián)網(wǎng)行業(yè)也是一樣。所以只有把數(shù)據(jù)連接起來,它才能發(fā)揮更大的價值,消除數(shù)據(jù)孤島,讓數(shù)據(jù)連接起來,也是我們進行全域數(shù)據(jù)建設(shè)的目的之一。
◎ 最后,賦能業(yè)務(wù)——
無論我們的集群規(guī)模有多大,服務(wù)體量有多大,最終還是要回歸業(yè)務(wù)、通過業(yè)務(wù)的數(shù)據(jù)表現(xiàn)來體現(xiàn)我們的價值——把數(shù)據(jù)體系統(tǒng)一后,除了讓業(yè)務(wù)可以更加準(zhǔn)確、快速的獲取決策分析數(shù)據(jù)外,還能提供業(yè)務(wù)快速試錯的機會,最終為業(yè)務(wù)創(chuàng)新降低了門檻。
{ Part4 }
如何建設(shè)全域數(shù)據(jù)
在整個全域數(shù)據(jù)接入過程中,盡管基礎(chǔ)設(shè)施建設(shè)已經(jīng)非常強大,但在實際過程中,我們?nèi)匀幻鎸α酥T多困難和挑戰(zhàn)。仍以優(yōu)土為例,它的大數(shù)據(jù)機房在青島,阿里集團大部分?jǐn)?shù)據(jù)集群都在內(nèi)蒙古和張北,而涉及到數(shù)據(jù)遷移也絕不是“拉一根網(wǎng)線”這么簡單——其中涉及到應(yīng)用體系、大數(shù)據(jù)架構(gòu)都需要定制方案去做;
另外,統(tǒng)一數(shù)據(jù)采集在接入的過程中也會就原有業(yè)務(wù)進行統(tǒng)一梳理,包括后面的數(shù)據(jù)驗證,做過數(shù)據(jù)的人應(yīng)該都知道其中的痛點;同時在遷移過程中,原有的數(shù)據(jù)對業(yè)務(wù)的服務(wù)還不能停,這事情我們叫——飛機上換輪子,一邊要進行核心零部件更新,一邊還要保持高速飛行;
最后就是項目周期,基于現(xiàn)實情況,大數(shù)據(jù)建設(shè)一般需要較長的周期,無法在幾周內(nèi)完工,因為大數(shù)據(jù)建設(shè)不是一蹴而就,而是一根體系化過程。
從基礎(chǔ)設(shè)施來看,阿里經(jīng)過電商發(fā)展,包括多年雙11這種特殊場景下的考驗,在基礎(chǔ)設(shè)施上,從數(shù)據(jù)中心到網(wǎng)絡(luò)到服務(wù)器,到數(shù)據(jù)庫中間件、計算平臺、數(shù)據(jù)平臺、算法平臺都有了非常多的沉淀。
因此,在建設(shè)全域數(shù)據(jù)的時候,我們要做的第一步就是將生態(tài)公司的數(shù)據(jù)在基礎(chǔ)設(shè)施階段就進行融合。
▊我們的數(shù)據(jù)組件劃分如下:
最底層——數(shù)據(jù)采集,這是數(shù)據(jù)的來源;中間——計算存儲平臺:實時計算采用自主研發(fā)的Blink,離線則采用MaxCompute。
▊上圖詳細(xì)介紹了我們的數(shù)據(jù)組件:
基于用戶的網(wǎng)上行為去做數(shù)據(jù)采集(我們有PC和無線的采集體系)然后放到實時、離線計算平臺上來,這兩個計算平臺除本身計算能力外,還有許多基于SQL、Graph等可編程的能力,最上面就是研發(fā)工具、產(chǎn)品服務(wù)、BI工具。
有如此強有力的基礎(chǔ)支撐外,長在上面的應(yīng)用能力也非常給力:以研發(fā)工具為例,阿里有約兩萬名研發(fā)工程師,而每天基于阿里數(shù)據(jù)平臺開展工作的同學(xué)就有近一萬人!
基于這些豐富的大數(shù)據(jù)組件,大部分的研發(fā)同學(xué)、專業(yè)的或非專業(yè)的同學(xué)都能在上面基于大數(shù)據(jù)做一些探索和嘗試。
▊下面介紹我們在全域數(shù)據(jù)建設(shè)中的幾個體系:
◎ 首先看流量體系——
這是互聯(lián)網(wǎng)行業(yè)和傳統(tǒng)行業(yè)最大的區(qū)別。
打個比方,如果我們把淘寶可以看做流量分發(fā)中心,用戶進來后把流量給到商品、給到賣家。那么在進行流量數(shù)據(jù)采集時,大家可能會給出不同的方案。
我們基于阿里巴巴多年的電商經(jīng)驗,也沉淀出來了一套統(tǒng)一的流量采集規(guī)范——超級位置模型:
以淘寶的頁面為例:
站點就是淘寶,下面會有頁面、區(qū)塊、位置,這些都是可以根據(jù)業(yè)務(wù)實際需求去埋點,并直觀獲取頁面任何位置的數(shù)據(jù),比如頁面概況分析、路徑分析、跳轉(zhuǎn)分析、頁面點擊、用戶分析等等。業(yè)務(wù)方只需要按照規(guī)范埋點,我們就能夠迅速給到基礎(chǔ)的流量分析能力,而基于此,配套對應(yīng)的數(shù)據(jù)產(chǎn)品就可以解決80%的流量方面的數(shù)據(jù)問題。
◎ 其次看計算組件化——
眾所周知,基于互聯(lián)網(wǎng)的基礎(chǔ)內(nèi)容其實是能夠固化下來特定需求,中間過程可以通過工程化能力去解決,然后迅速把這些東西配置出來,而不需要每一個需求都去做代碼開發(fā)計算——這就是計算組件化。
這樣做的好處首先就是;配置簡單、復(fù)用性高,同時,在注意統(tǒng)一規(guī)范后,未來接入uc、接入高德等業(yè)務(wù),我們可以做到一鍵接入。
◎ OneData體系,全域數(shù)據(jù)建設(shè)最核心的體系——
目前,從整個大數(shù)據(jù)建設(shè)過程來看,它分為數(shù)據(jù)接入、規(guī)范定義、計算加工、數(shù)據(jù)驗證、數(shù)據(jù)穩(wěn)定性,這幾個部分合并構(gòu)成了整體的數(shù)據(jù)研發(fā)流程。
OneData體系工具是全域建設(shè)的保障——我們知道現(xiàn)在存儲和計算可能已不是瓶頸。隨著分布式技術(shù)的發(fā)展,以Hadoop為典型代表,廉價的pc服務(wù)器即可搭建出超強的計算能力,因此存儲和計算未來會變的越來越便宜,但相對昂貴的是工程師的時間成本。
所以,工具化是解決研發(fā)效率的關(guān)鍵一環(huán)。我們把大量機械、人肉、不產(chǎn)生價值的工作,通過工具去完成,比如從數(shù)據(jù)的接入開始,我們有OneClick保證高效接入,根據(jù)阿里巴巴完善的元數(shù)據(jù),我們有能力把基于業(yè)務(wù)db的數(shù)據(jù)一鍵拉到計算平臺,這個過程幾乎不需要人的參與。
同時,通過OneDefine工具來確保數(shù)據(jù)建設(shè)過程是規(guī)范的,比如:模型分層、表命名規(guī)范、字段命名規(guī)范等。
◎ 再看計算過程——
阿里數(shù)據(jù)應(yīng)用的群體在能力上是參差不齊的,有專業(yè)的數(shù)據(jù)研發(fā)、有算法工程師、有分析師、可能還有業(yè)務(wù)運營,很多人可能簡單自學(xué)SQL后,就可以自己跑數(shù)據(jù):通常情況下,SQL質(zhì)量無法保證,如果查詢的數(shù)據(jù)量非常大,可能后臺幾千臺機器就轉(zhuǎn)起來了,為避免類似情況發(fā)生,我們會在提交任務(wù)過程中做代碼校驗,對于性能問題、規(guī)范問題、代碼質(zhì)量問題都會給出必要的提示,比如sql代碼對于除數(shù)為0沒有做代碼兼容,比如我們的ddl語句中沒有做數(shù)據(jù)生命周期的設(shè)置,比如sql的query中沒有做分區(qū)的條件限制,甚至你的sql代碼別人已經(jīng)計算過,可以復(fù)用結(jié)果不需要重新計算這些問題,我們都會給出精確到提示。
在數(shù)據(jù)研發(fā)過程中,代碼編寫可能只占工作量的20%,那么大部分時間都去干嗎了?是數(shù)據(jù)驗證,代碼修改前和代碼修改后,數(shù)據(jù)到底差多少,差在哪兒?過去如果沒有工具只能寫一堆角本,再去驗證,效率極其低下,而且極易出錯,現(xiàn)在有了“在彼岸”工具我們可以通過簡單的勾勾選選就知道前后差異到底差在哪?然后迅速給測試報告,保證整個研發(fā)過程的數(shù)據(jù)質(zhì)量是有保障的。
最后,任務(wù)上線后,大量時間都在運維,監(jiān)控數(shù)據(jù)質(zhì)量、監(jiān)控產(chǎn)出時間等等,這些日常要去關(guān)注的工作我們也會有相關(guān)的工具去支持,因此OneData體系工具是全域數(shù)據(jù)建設(shè)的重要保障。
工具有了,規(guī)范有了,我們還需要與研發(fā)流程全程打通,我們就可以確保規(guī)范真正的落實到每位開發(fā)者身上,因此我們可以這樣來理解研發(fā)流程:某位研發(fā)同學(xué)在做數(shù)據(jù)需求,要先把規(guī)范定義完成才能繼續(xù)進行代碼開發(fā)。
▊代碼開發(fā)中會有兩道檢查:
◎ 第一道是SQLscan:這里面會檢查代碼規(guī)范性、代碼質(zhì)量、可能出現(xiàn)的性能問題,把這些問題避免掉;
◎ 另一道是“在彼岸”數(shù)據(jù)測試:重要的數(shù)據(jù)做了數(shù)據(jù)變更后,會要求做回歸測試流程,輕松簡單的勾選,就可以快速給出測試。如果任務(wù)需在生產(chǎn)環(huán)境運行,這兩個環(huán)節(jié)必須完成后才能夠提交,上述過程就是整個基于OneData體系的研發(fā)流程。
目前阿里巴巴數(shù)據(jù)總量已超EB級別,總表數(shù)也已經(jīng)超百萬,這么大體量下,如何能夠做到高效靈活卻又不失規(guī)范的大數(shù)據(jù)建設(shè),我們確實探索了很長時間。
隨著阿里業(yè)務(wù)的不斷拓展,對于大數(shù)據(jù)能力的要求會越來越高,技術(shù)上,如何突破傳統(tǒng)數(shù)倉etl架構(gòu)?我們從基礎(chǔ)設(shè)施的計算存儲分離、離線在線混布等事情上已經(jīng)開始探索,相信在不久的將來,我們會對傳統(tǒng)數(shù)倉etl進行重新的定義。
注:本文系數(shù)據(jù)觀綜合自阿里數(shù)據(jù)「AliData」-2017杭州云棲大會大數(shù)據(jù)專場演講干貨,編輯:Fynlch(王培), 版權(quán)著作權(quán)屬原創(chuàng)者所有。數(shù)據(jù)觀微信公眾號(ID:cbdioreview),欲了解更多大數(shù)據(jù)行業(yè)相關(guān)資訊,可搜索數(shù)據(jù)觀(中國大數(shù)據(jù)產(chǎn)業(yè)觀察網(wǎng)www.21jieyan.cn)進入查看。
責(zé)任編輯:王培