來源:THU數(shù)據(jù)派 時間:2017-07-11 14:42:29 作者:魏子敏
?“數(shù)據(jù)實驗室不是科研組織,我們要的是成果落地?!?/p>
?中國東方航空數(shù)據(jù)實驗室負(fù)責(zé)人王學(xué)武非常明確數(shù)據(jù)的價值所在,“科研成果變?yōu)閯趧由a(chǎn)力需要有很長的路要走。而我們要的就是分析成果的落地,要的就是全面鋪開,釋放數(shù)據(jù)的潛能,通過數(shù)字化推動業(yè)務(wù)的提升。”
?隸屬東方航空客運營銷委員會和東航信息部,東航數(shù)據(jù)實驗室經(jīng)過一年籌備,于2017年初正式成立。
?變現(xiàn)大數(shù)據(jù)資產(chǎn)的價值,推動業(yè)務(wù)價值提升,后期甚至可以孵化新的項目出來,盡管剛剛出現(xiàn)不到一年,王學(xué)武對這一籌備許久終于上馬的項目充滿了想象力。
?而當(dāng)把航空這一與用戶貼合緊密的領(lǐng)域與大數(shù)據(jù)放在一起,也確實可以產(chǎn)生很多新的碰撞場景。
?數(shù)據(jù)實驗室不是隨便建起來的拍腦袋工程,在其正式成立之前,王學(xué)武和同事花費了大量的時間與公司高層、與目標(biāo)用戶進(jìn)行溝通。他很明確地告訴我們,首先,一個公司需要從戰(zhàn)略上明確,為什么需要數(shù)據(jù)實驗平臺?將會起到什么作用?再從高級分析用戶層面考慮,數(shù)據(jù)實驗室是否能解決他們現(xiàn)有數(shù)據(jù)分析的難點和痛點?有沒有一個明確的業(yè)務(wù)場景,能夠推動他們在數(shù)據(jù)實驗平臺作嘗試?
?東方航空數(shù)據(jù)實驗室項目負(fù)責(zé)人 王學(xué)武
?“用得順手”是讓大家“真正用起來”的關(guān)鍵
?“大家都在上(數(shù)據(jù)團(tuán)隊/項目),但到底能做什么?具體做什么?其實很多都還不知道。但是別人都在做,你沒做的話就像土八路了?!蓖鯇W(xué)武說。
?數(shù)據(jù)實驗室是適應(yīng)東航數(shù)據(jù)分析發(fā)展的產(chǎn)物。如何讓分析人員在實驗室真正創(chuàng)造價值,把數(shù)據(jù)探索、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等工具用起來,卻不容易。對此,王學(xué)武認(rèn)為,“對數(shù)據(jù)的價值有非常清晰的定位,讓大家用得順手”是讓產(chǎn)品“真正被用起來”的關(guān)鍵。
?基本的出發(fā)點有了,團(tuán)隊在著手做事情前,要有非常明確的目標(biāo)和清晰的商業(yè)訴求,能清楚地描述給來自各領(lǐng)域的聯(lián)合數(shù)據(jù)分析團(tuán)隊成員,統(tǒng)一目標(biāo),并制定合理的計劃。
?數(shù)據(jù)實驗過程是一個持續(xù)探索、持續(xù)迭代的過程。不僅是對分析成果進(jìn)行迭代,也對工作方式和流程進(jìn)行優(yōu)化。
?“最重要一點,我們會針對不同類型的分析成果,制定它們的量化規(guī)則,量化通過模型所產(chǎn)生的經(jīng)濟收益、生產(chǎn)效率的提升幅度或其他考核指標(biāo),以此量化數(shù)據(jù)分析的價值?!边@也是數(shù)據(jù)驅(qū)動文化真正建立起來的重要步驟。
?王學(xué)武稱東航建立數(shù)據(jù)實驗室沒有現(xiàn)成的經(jīng)驗可參考,需要進(jìn)行很多創(chuàng)新嘗試。實驗室前期籌建階段,也是一個推廣的階段,“我們經(jīng)常與用戶進(jìn)行頭腦風(fēng)暴,一是能讓用戶更深入了解數(shù)據(jù)實驗平臺,了解相關(guān)技術(shù)和機器學(xué)習(xí)概念,二是我們能了解用戶的痛點,與用戶一起構(gòu)思大數(shù)據(jù)應(yīng)用場景。定期對各部門的核心分析人員進(jìn)行數(shù)據(jù)挖掘知識和技術(shù)培訓(xùn),以及統(tǒng)計學(xué)等方面知識培訓(xùn),形成很好的學(xué)習(xí)氣氛?!?/p>
?合作各方,先打造幾款爆款產(chǎn)品“速勝”
?“燃油是航空公司高層例會上最大的敏感詞,只要你提到‘可以降低燃油能耗’,你就能看到,大家會立刻提起興趣?!蓖鯇W(xué)武玩笑著說出了這個航空公司的大難題。
?和很多數(shù)據(jù)團(tuán)隊一樣,在成立之初,王學(xué)武的團(tuán)隊面臨著如何讓高層和業(yè)務(wù)團(tuán)隊看到自身價值的問題,這時候,打造一款“爆款”產(chǎn)品,讓各合作方看到數(shù)據(jù)的價值十分重要?!叭加托史治觥笔瞧渲幸粋€這樣的課題。
?油價是航空公司最大的變動成本項,航空公司急需通過控制油耗來降低運營成本。但是,與實際油耗相關(guān)的屬性有70多個,逐個去分析它們的相關(guān)性,很耗時,容易出錯。而且需要有很好的業(yè)務(wù)知識支持。
?東航數(shù)據(jù)實驗室通過Oracle BDA解析QAR數(shù)據(jù),打造了一款針對燃油效率分析的產(chǎn)品;分析發(fā)動機壽命,預(yù)測可能出現(xiàn)故障的設(shè)備。通過平臺提供的工具,即便在不是很熟悉業(yè)務(wù)的情況下,也能很方便快速地發(fā)現(xiàn)一些問題:
?首先,用戶在數(shù)據(jù)列表找到自己所需的數(shù)據(jù),將它們導(dǎo)入個人數(shù)據(jù)沙箱;然后,利用實驗室的數(shù)據(jù)發(fā)現(xiàn)工具,瀏覽數(shù)據(jù)狀況,剔除數(shù)據(jù)質(zhì)量不高的屬性。屬性由原來的70多個減少到60個。
?再按與實際油耗的相關(guān)程度進(jìn)行排序,與油耗相關(guān)程度越高的就排在越前面,這樣就可以很快地發(fā)現(xiàn)哪些是相關(guān)程度最高的屬性。比如:飛行距離、最大業(yè)載、機型、最大起飛重量、實際業(yè)載、發(fā)動機型號等。
?再進(jìn)一步,挑選幾個需要分析的屬性,可以看到它們與實際油耗的相關(guān)系數(shù)和圖形化的分布情況,為后續(xù)深入分析指引方向。
?航空領(lǐng)域天然擁有不少數(shù)據(jù)。而提到飛行,除了油耗,多數(shù)乘客首先想到的應(yīng)該都是黑匣子中記錄下的數(shù)據(jù)。其實,飛機飛行數(shù)據(jù)的記錄時刻都在進(jìn)行,比如飛機快速存取記錄器(下稱QAR)記錄的數(shù)據(jù),通過遍布飛機全身的數(shù)千個傳感器,記錄飛機在飛行時的品質(zhì)、安全等參數(shù),是輔助飛行員養(yǎng)成良好飛行習(xí)慣的必需品。
?QAR可實時記錄飛行員自飛機倉門關(guān)閉、爬行、攀升、漸進(jìn)到降落的整個航程的操作行為和發(fā)動機狀態(tài)的數(shù)據(jù)。這個數(shù)據(jù)量很大,每年將產(chǎn)生100T的數(shù)據(jù)量。
?通過飛機上的傳感器,東航可以獲取每個飛行員從起飛到降落的所有操作行為,以及發(fā)動機的損耗、氣象資料等數(shù)據(jù),利用大數(shù)據(jù)建立模型分析,找出飛行員日常操作和飛行潛在風(fēng)險因素,提升安全水平,并可以有針對性地加強飛行員培訓(xùn),為其養(yǎng)成良好的操作習(xí)慣,糾正飛行員有時候出現(xiàn)的不規(guī)則的手動操作,減少因操作不當(dāng)造成的飛機發(fā)動機損耗等問題,也會給飛行員提供更節(jié)省燃油的飛行建議,比如,針對不同的機型、風(fēng)力、高度、航道的擁堵等情況,給出建議的飛行速度。
?東航數(shù)據(jù)實驗室技術(shù)架構(gòu)探索:基于Oracle BDA解析QAR數(shù)據(jù)
?如此高量級的數(shù)據(jù)存儲分析需求也對東方航空的數(shù)據(jù)架構(gòu)提出了更高的要求。
?東航數(shù)據(jù)實驗室利用Oracle BDA的12個節(jié)點所提供的強大的計算能力和網(wǎng)絡(luò)傳輸能力,來處理來自營銷、運行、機務(wù)、物流、地服、電商、呼叫中心等業(yè)務(wù)領(lǐng)域的海量數(shù)據(jù),并將處理好的結(jié)果數(shù)據(jù)供數(shù)據(jù)實驗室使用。
?東航是基于旅客出行的全流程來建立數(shù)據(jù)分析體系。在旅客的航前、航中、航后環(huán)節(jié),建立相應(yīng)應(yīng)用系統(tǒng),增加和旅客的業(yè)務(wù)接觸點,通過“以客戶為中心”的服務(wù)理念,為客戶提供全方位的出行服務(wù)。并在每個環(huán)節(jié)都有相應(yīng)的運營系統(tǒng)作支撐。
?數(shù)據(jù)實驗室通過一套流程去促進(jìn)業(yè)務(wù)提升。從上圖可以看出,整個流程分為執(zhí)行層面和創(chuàng)新層面。實驗室是其中的一部分,數(shù)據(jù)流通過前端應(yīng)用的客戶接觸點進(jìn)入到數(shù)據(jù)平臺,數(shù)據(jù)實驗室從數(shù)據(jù)平臺獲得數(shù)據(jù),進(jìn)行分析,得到成果,通過規(guī)則引擎、數(shù)據(jù)產(chǎn)品等方式發(fā)布到應(yīng)用前端,促進(jìn)業(yè)務(wù)效率提升。
?數(shù)據(jù)實驗室有個優(yōu)點就是數(shù)據(jù)實驗環(huán)境與業(yè)務(wù)生產(chǎn)環(huán)境是相互隔離的。數(shù)據(jù)實驗室通過ETL把BDA、Teradata、Exadata、Greenplum的數(shù)據(jù)抽取到實驗室數(shù)據(jù)存儲區(qū),用戶直接操作的是實驗室數(shù)據(jù)存儲區(qū)的數(shù)據(jù),即便用戶在實驗環(huán)境進(jìn)行大數(shù)據(jù)量操作時,也不會對現(xiàn)有的生產(chǎn)系統(tǒng)產(chǎn)生影響。
?應(yīng)用架構(gòu)分為生產(chǎn)環(huán)境和實驗環(huán)境兩部分。實驗存儲區(qū)通過ETL從數(shù)據(jù)平臺抽取數(shù)據(jù),再整合用戶上傳的數(shù)據(jù)、各主題數(shù)據(jù)、參數(shù)數(shù)據(jù)和實驗成果等數(shù)據(jù)。用戶在數(shù)據(jù)沙箱獲取這些數(shù)據(jù),再利用前端工具使用數(shù)據(jù)。目前,實驗存儲區(qū)使用私有云Hadoop集群,未來也會考慮向公有云擴展。
?信息化是企業(yè)開啟數(shù)據(jù)化的第一步
?東航在2014年就開始布局大數(shù)據(jù)戰(zhàn)略,時任東航CIO的蔡陽先生帶領(lǐng)著信息部各產(chǎn)品部成立了BICC商業(yè)智能競爭力中心,進(jìn)行數(shù)據(jù)、技術(shù)和思維的專題研究,定期交流成果。圍繞著這三方面,東航數(shù)據(jù)實驗室討論了很多主題,從云計算,大數(shù)據(jù)技術(shù),數(shù)據(jù)價值鏈,產(chǎn)品路線圖,算法,再到一張機票后面的二維碼,都在討論范圍內(nèi)。經(jīng)過了1年多的場景探索,最終基本確定了營銷、服務(wù)和運行這三大領(lǐng)域的業(yè)務(wù)目標(biāo)。
?在很多傳統(tǒng)企業(yè),信息化都是企業(yè)開啟數(shù)據(jù)化的第一步。數(shù)據(jù)團(tuán)隊在進(jìn)行數(shù)據(jù)分析、洞察、打造爆款產(chǎn)品之前,需要先整合企業(yè)內(nèi)部數(shù)據(jù),進(jìn)而不斷引入結(jié)構(gòu)化和非結(jié)構(gòu)化的外部數(shù)據(jù),并通過數(shù)據(jù)管理,提升數(shù)據(jù)質(zhì)量,統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)。
?“信息化之后,數(shù)據(jù)在東航發(fā)揮著越來越核心的作用,航空業(yè)的數(shù)字化業(yè)態(tài)逐漸形成。我們信息部和各業(yè)務(wù)部門緊密聯(lián)系在一起,共同攻關(guān)克難,所收獲的成果、經(jīng)驗與教訓(xùn),都將為建設(shè)數(shù)字化東航打下基礎(chǔ)?!蓖鯇W(xué)武說。
?王學(xué)武坦言,隨著分析用戶的水平越來越高,在使用數(shù)據(jù)分析系統(tǒng)時,也遇到了很多痛點和難點,阻礙他們進(jìn)一步去分析數(shù)據(jù)。比如:
?用戶在進(jìn)行大數(shù)據(jù)量查詢與計算時,會直接對生產(chǎn)系統(tǒng)的性能產(chǎn)生影響;
?實現(xiàn)用戶的分析需求,需要業(yè)務(wù)與技術(shù)來回溝通,周期較長;
?隨著用戶分析能力提高,用戶使用數(shù)據(jù)的局限性也越來越明顯,他們迫切需要一個能自主、自助進(jìn)行數(shù)據(jù)分析的平臺,且有很多易用的工具選擇;
?用戶希望能有一個快速定位問題、快速試錯的平臺,從而降低決策和投資的風(fēng)險;
?他們想獲得更多的數(shù)據(jù),而不限于自己部門的;
?要打破公司內(nèi)各領(lǐng)域間的數(shù)據(jù)孤島問題,能讓數(shù)據(jù)流動起來;
?現(xiàn)在課題的攻關(guān)難度比以往更大,需要多領(lǐng)域的專家一起解決,這就需要一種創(chuàng)新的協(xié)作方式,有效銜接業(yè)務(wù)、技術(shù)、學(xué)科等領(lǐng)域的專家;
?從應(yīng)用數(shù)據(jù)的角度來看,用戶希望能“看得懂、拿得到、做得了事情”,即用戶能知道有什么數(shù)據(jù)?它的質(zhì)量怎么樣?適不適用?通過什么渠道可以拿到這些數(shù)據(jù)?通過哪些合適的工具去分析這些數(shù)據(jù)?從而產(chǎn)出一定成果。
?為了解決這些問題,數(shù)據(jù)實驗室應(yīng)運而生。
?數(shù)據(jù)實驗室有4個核心理念:
?開放:實驗室是開放的大數(shù)據(jù)實驗平臺,用戶擁有最大程度的靈活性與自由度去使用數(shù)據(jù);
?連接:連接人、數(shù)據(jù)和分析算法,以及能在不同的人之間,不同的數(shù)據(jù)之間,不同的算法之間建立連接。這些連接會形成一種合力,能有效地解決課題研究的難點;
?融合:數(shù)據(jù)融合、數(shù)據(jù)流動、數(shù)據(jù)活力。通過跨領(lǐng)域的數(shù)據(jù)融合,可以發(fā)現(xiàn)各領(lǐng)域之間的相關(guān)性,聯(lián)動性,通過有效的協(xié)調(diào),提高整體的競爭力;
?生產(chǎn)力:數(shù)據(jù)驅(qū)動、數(shù)據(jù)產(chǎn)品,分析成果與生產(chǎn)應(yīng)用的緊密結(jié)合,促進(jìn)價值提升。
?數(shù)據(jù)人才建議:以明確清晰的商業(yè)目標(biāo)為導(dǎo)向
?現(xiàn)階段,數(shù)據(jù)實驗室成員來自信息部數(shù)據(jù)產(chǎn)品部、營銷委的網(wǎng)絡(luò)收益部和客戶關(guān)系部,以及其他部門的分析團(tuán)隊,共30多人。主要由具體作數(shù)據(jù)分析和實施課題的人員組成,公司領(lǐng)導(dǎo)為實驗室明確戰(zhàn)略方向和協(xié)調(diào)資源。成員包括業(yè)務(wù)部高級經(jīng)理、統(tǒng)計學(xué)博士、業(yè)務(wù)專家、市場研究、產(chǎn)品規(guī)劃、產(chǎn)品經(jīng)理、技術(shù)架構(gòu)師、大數(shù)據(jù)工程師、高級數(shù)據(jù)分析等。
?王學(xué)武對于數(shù)據(jù)人才的培養(yǎng)也給出了自己的建議:“以明確的、清晰的商業(yè)目標(biāo)為導(dǎo)向,通過在作課題和項目的過程中,培養(yǎng)具有復(fù)合能力的數(shù)據(jù)科學(xué)人才。定期舉行技術(shù)、業(yè)務(wù)培訓(xùn)和知識分享。發(fā)揮企業(yè)內(nèi)社區(qū)的作用,提升成員的認(rèn)同感與成就感,進(jìn)而提升參與度。在工作中,計算機科學(xué)、數(shù)據(jù)可視化、業(yè)務(wù)分析、運籌、統(tǒng)計等角色的成員之間要保持緊密的溝通,在不斷提升自己領(lǐng)域的專業(yè)水平以更好對外提供支持的同時,還要學(xué)習(xí)其他領(lǐng)域的知識和技能,建立一個良好的學(xué)習(xí)共進(jìn)氛圍,讓成員具備更多的能力維度。
?經(jīng)常帶著商業(yè)問題,在數(shù)據(jù)中去探索,去驗證自己的想法。這個數(shù)據(jù)發(fā)現(xiàn)的過程,會很有意思,很有趣,會逐漸理解數(shù)據(jù),以及數(shù)據(jù)之間的關(guān)系,加快掌握業(yè)務(wù)知識。注意在課題和項目的實施過程中作總結(jié)和積累經(jīng)驗,失敗的或成功的經(jīng)驗都是非常有價值的。最后,套一句互聯(lián)網(wǎng)思維的話,懂得分享,才更有價值。”
責(zé)任編輯:陳近梅