來源:數(shù)據(jù)觀 時間:2018-04-06 21:35:09 作者:鮑忠鐵
????【導(dǎo)讀】當(dāng)今世界正在經(jīng)歷一場偉大的“數(shù)據(jù)革命”,大數(shù)據(jù)迅速并深刻地改變著人們的生產(chǎn)生活,正在開啟一個嶄新的時代!同時,每年五月在中國貴陽舉辦的中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(簡稱“數(shù)博會”)提供大平臺,集中展示最新技術(shù)及理論成果,齊聚行業(yè)相關(guān)人士共商大數(shù)據(jù)產(chǎn)業(yè)發(fā)展大計。在2018數(shù)博會即將開幕之際,數(shù)據(jù)觀特別邀請行業(yè)專家、學(xué)者、企業(yè)家深入剖析產(chǎn)業(yè)發(fā)展現(xiàn)狀,推出系列大數(shù)據(jù)產(chǎn)業(yè)深度評論專欄《博言》。今天刊發(fā)的第一篇,由TalkingData首席布道師鮑忠鐵撰寫的《數(shù)據(jù)科學(xué)將成為新的商業(yè)引擎》,詳細(xì)分析數(shù)據(jù)科學(xué)的應(yīng)用及未來發(fā)展趨勢。
大數(shù)據(jù)時代,企業(yè)家都非常關(guān)心數(shù)據(jù)究竟如何幫助企業(yè)實現(xiàn)業(yè)務(wù)增長和商業(yè)模式進(jìn)化,很少有企業(yè)管理者真正理解數(shù)據(jù)科學(xué)對未來時代商業(yè)模式的影響。大部分企業(yè)仍然將數(shù)據(jù)科學(xué)作為商業(yè)分析工具,輔助企業(yè)發(fā)現(xiàn)風(fēng)險事件和挖掘營銷機(jī)會。傳統(tǒng)企業(yè)的商業(yè)活動中,數(shù)據(jù)科學(xué)很少參與到實際的商業(yè)運(yùn)營之中,實時進(jìn)行商業(yè)決策,幫助企業(yè)提升銷售收入。
互聯(lián)網(wǎng)企業(yè),數(shù)據(jù)科學(xué)正在作為商業(yè)引擎發(fā)揮著至關(guān)重要的作用。Google 2017年上千億美元的營收中,84%來源于廣告業(yè)務(wù),其廣告業(yè)務(wù)的CTR(點擊率)在3%-4%之間,TOP位的廣告點擊率高達(dá)30%-40%。谷歌在全球的在線廣告市場份額超過33%,搜索廣告市場份額超過60%,是名副其實的廣告霸主。2017年亞馬遜1500億美元的電商GMV中,40%的營收依靠其推薦引擎。Google的廣告業(yè)務(wù)和亞馬遜的電商業(yè)務(wù),其背后進(jìn)行實時商業(yè)決策的不是人而是數(shù)據(jù)科學(xué)。Google通過數(shù)據(jù)科學(xué)優(yōu)化其廣告業(yè)務(wù),推送給客戶愿意點擊的廣告,CTR每提高0.1%的百分點,給Google帶來的業(yè)務(wù)收入會增加20-30億美元。亞馬遜利用推薦算法為客戶提供其愿意購買的商品,推薦引擎每提升一個百分點,其GMV會提升40億美金。
數(shù)據(jù)科學(xué)儼然已經(jīng)成為Google和亞馬遜這些互聯(lián)網(wǎng)巨頭的商業(yè)引擎,幫助這些巨頭實時進(jìn)行商業(yè)決策,提升業(yè)務(wù)收入。中國的互聯(lián)網(wǎng)企業(yè)BAT也是同樣,數(shù)據(jù)科學(xué)在后臺幫助其每天進(jìn)行上萬次商業(yè)決策。阿里的電商推薦引擎、騰訊的廣告平臺、百度的搜索引擎,都是通過數(shù)據(jù)科學(xué)在進(jìn)行商業(yè)決策,將合適的商品、廣告、信息推薦給客戶,提升客戶的轉(zhuǎn)化率,獲得更多的業(yè)務(wù)收入。在傳統(tǒng)企業(yè)商業(yè)活動中,我們很少看到數(shù)據(jù)科學(xué)參與到實際商業(yè)運(yùn)營之中,也很少像互聯(lián)網(wǎng)企業(yè)一樣,幫助企業(yè)進(jìn)行實時商業(yè)決策。
企業(yè)所有的商業(yè)行為最終體現(xiàn)為商業(yè)決策,每天都需要為業(yè)務(wù)發(fā)展做出成百上千的決策。這些商業(yè)決策體現(xiàn)在業(yè)務(wù)運(yùn)營的方方面面,包括產(chǎn)品設(shè)計,市場營銷,庫存管理,客戶經(jīng)營,商品推薦,門店選址,成本控制,供應(yīng)鏈管理等。企業(yè)大部分商業(yè)決策都是由人來進(jìn)行的,很大一部分依賴于從業(yè)人員的行業(yè)經(jīng)驗和數(shù)據(jù)分析結(jié)果,這些商業(yè)決策具有一個典型特點就是決策周期過長,短的幾天,長的需要幾周甚至幾個月。從風(fēng)險角度來看,多次討論和長時間決策可以降低決策風(fēng)險。但是從商業(yè)機(jī)會角度分析,長時間的決策也可能錯失商業(yè)機(jī)會,降低決策帶來的預(yù)期潛收益,也會增加商業(yè)決策的失誤風(fēng)險。在市場不確定性增強(qiáng),節(jié)奏變快的數(shù)字時代,有效風(fēng)險控制和實時商業(yè)決策將會成為企業(yè)的核心競爭力,其背后的技術(shù)支撐就是企業(yè)數(shù)據(jù)科學(xué)的商業(yè)化應(yīng)用能力。
過去幾年,一些傳統(tǒng)企業(yè)在數(shù)據(jù)科學(xué)應(yīng)用方面取得了突破,其商業(yè)運(yùn)營正在依靠數(shù)據(jù)科學(xué)降低庫存成本。寶潔公司有兩個數(shù)字讓管理層非常頭痛,一個是38億美元的庫存數(shù)據(jù),另一個是脫銷量。在零售店或折扣店中最重要的2,000種商品中,任何時刻都有11%的商品脫銷。系統(tǒng)中的大量庫存庫和客戶無法及時買到寶潔的產(chǎn)品,成為一種矛盾在不斷消耗著公司的成本。BiosGroup運(yùn)用了被稱為"基于供應(yīng)鏈實體(agent)的建模"技術(shù),在數(shù)字世界完全模擬了寶潔的供應(yīng)鏈系統(tǒng)。小的軟件模塊代表了系統(tǒng)中各種實體組成部分,一個實體代表生產(chǎn)線,其他實體則代表貨車、倉庫、客戶和消費者。模型是根據(jù)消費者行為的概率分布(比如他們何時購物、購買多少)以及貨架的狀態(tài)(即產(chǎn)品是否脫銷)來建立,在這個理想世界中,每件事情都有條不紊地平穩(wěn)發(fā)展著,供應(yīng)鏈就像瑞士手表一般以精確和可預(yù)測的方式工作。
利用數(shù)學(xué)模型和數(shù)據(jù)科學(xué)技術(shù),寶潔公司比以前更準(zhǔn)確地測量各種需求變化和分銷決策的影響。模型經(jīng)過計算發(fā)現(xiàn)強(qiáng)制裝滿一卡車訂貨量之后再發(fā)送,會產(chǎn)生涓滴效應(yīng),導(dǎo)致部分商品缺貨和庫存增加。對訂單做5%調(diào)整,允許30%彈性發(fā)貨則會降低庫存,降低產(chǎn)品脫銷概率。經(jīng)過一系列的模型計算和商業(yè)決策調(diào)整,寶潔公司一年之內(nèi)減少了30億美元庫存,降低了75%的商品脫銷率。
類似于寶潔公司利用數(shù)據(jù)科學(xué)來指導(dǎo)商業(yè)決策的案例還用很多,例如Air Liquide 公司利用蟻群算法實現(xiàn)貨物運(yùn)營路徑優(yōu)化,降低8%運(yùn)營費用,每年單個工廠降低成本150萬美元。寶馬公司利用拉丁超立方體導(dǎo)出2000個點創(chuàng)建控制實驗室,采用克里金插值(Kriging)、偏最小二乘模型(PLS)、徑向基函數(shù)模型(RBF)實現(xiàn)交互設(shè)計從幾小時響應(yīng)到無延時交互設(shè)計。Paypal利用深度學(xué)習(xí)進(jìn)行反欺詐和反洗錢,效率提升兩倍,實現(xiàn)實時決策。
數(shù)據(jù)科學(xué)的商業(yè)應(yīng)用正在從后臺數(shù)據(jù)挖掘工作走向前臺,參與到實際的商業(yè)決策當(dāng)中。傳統(tǒng)企業(yè)需要轉(zhuǎn)變對數(shù)據(jù)科學(xué)的定位,在成熟的商業(yè)環(huán)境中,不涉及重大風(fēng)險的前提下,數(shù)據(jù)科學(xué)應(yīng)該輔助業(yè)務(wù)人員進(jìn)行商業(yè)決策。在某些環(huán)境下讓數(shù)據(jù)科學(xué)獨立進(jìn)行實時商業(yè)決策,降低商業(yè)決策的時間,并有效控制商業(yè)決策風(fēng)險。數(shù)學(xué)模型可以實時預(yù)測商品銷量,從而指導(dǎo)企業(yè)庫存管理和原料采購,縮短庫存時間,提高周轉(zhuǎn)率,降低企業(yè)運(yùn)營成本,提高資金利用率。企業(yè)在面對市場激烈的商業(yè)競爭時,基于數(shù)據(jù)科學(xué)的實時商業(yè)決策也會降低企業(yè)決策失敗的成本,一旦某個商業(yè)決策沒有達(dá)到預(yù)期效果,被認(rèn)為是一個失敗決策時,實時商業(yè)決策會及時止損,降低其成本投入,有效控制風(fēng)險。但是涉及到重大風(fēng)險類商業(yè)決策時,考慮到?jīng)Q策的復(fù)雜程度,人的判斷要占主流,數(shù)據(jù)科學(xué)為為其提供決策支持。
數(shù)據(jù)科學(xué)成為傳統(tǒng)企業(yè)的商業(yè)引擎需要一個漫長的試錯過程,在發(fā)展的過程中,需要企業(yè)經(jīng)歷幾個階段。首先是數(shù)字化階段,企業(yè)需要將業(yè)務(wù)經(jīng)營相關(guān)的各流程進(jìn)行數(shù)字化,產(chǎn)品生命周期和業(yè)務(wù)流程的生命周期產(chǎn)生的數(shù)據(jù)將被采集和整理,為數(shù)據(jù)科學(xué)應(yīng)用提供必要的生產(chǎn)資料。第二個階段是數(shù)據(jù)治理和業(yè)務(wù)需求分析,先進(jìn)行數(shù)據(jù)治理,并依據(jù)業(yè)務(wù)需求來治理數(shù)據(jù),標(biāo)注數(shù)據(jù),匯總數(shù)據(jù)。為實現(xiàn)數(shù)據(jù)科學(xué)應(yīng)用提供標(biāo)準(zhǔn)化的輸入和輸出。第三個階段是數(shù)據(jù)科學(xué)應(yīng)用階段,依據(jù)業(yè)務(wù)需求和數(shù)據(jù)來建立模型,通過數(shù)學(xué)模型和數(shù)據(jù)工程能力解決實際的商業(yè)問題,基于數(shù)據(jù)科學(xué)的結(jié)果實現(xiàn)實時商業(yè)決策。
數(shù)據(jù)科學(xué)成為商業(yè)引擎的關(guān)鍵是企業(yè)的數(shù)據(jù)科學(xué)商業(yè)化能力。企業(yè)在實現(xiàn)數(shù)數(shù)據(jù)科學(xué)商業(yè)化應(yīng)用能力上需要建關(guān)注三個方面建設(shè)。
一、數(shù)據(jù)科學(xué)人才和組織建設(shè)
數(shù)據(jù)科學(xué)應(yīng)用能力和組織建設(shè)適合于大型企業(yè),中小企業(yè)由于經(jīng)營成本和人才儲備的原因,數(shù)據(jù)科學(xué)的應(yīng)用一般會依賴于外部的廠商和BAT巨頭。
對于大型企業(yè),需要兩組數(shù)據(jù)科學(xué)團(tuán)隊,一組位于科技部門,其主要職責(zé)是建立數(shù)據(jù)科學(xué)應(yīng)用平臺,為業(yè)務(wù)部門數(shù)據(jù)科學(xué)應(yīng)用提供高效的計算環(huán)境和高質(zhì)量數(shù)據(jù),并協(xié)助業(yè)務(wù)部門的數(shù)據(jù)科學(xué)團(tuán)隊實現(xiàn)業(yè)務(wù)模型商業(yè)化應(yīng)用,將數(shù)學(xué)模型變成生產(chǎn)系統(tǒng),實時指導(dǎo)商業(yè)決策。這組數(shù)據(jù)科學(xué)團(tuán)隊更加關(guān)注數(shù)據(jù)科學(xué)計算技術(shù)的發(fā)展和數(shù)據(jù)科學(xué)的工程能力。另外一組數(shù)據(jù)科學(xué)團(tuán)隊的人屬于業(yè)務(wù)部門,其比較了解業(yè)務(wù)數(shù)據(jù)和業(yè)務(wù)需求,數(shù)據(jù)科學(xué)的商業(yè)化能力比較強(qiáng)。具有豐富的數(shù)學(xué)模型應(yīng)用能力,基于業(yè)務(wù)需求,選取特征值建模,并不斷對模型進(jìn)行調(diào)優(yōu),得到模型應(yīng)用的最佳解。這組數(shù)據(jù)科學(xué)團(tuán)隊更加關(guān)注算法和模型,數(shù)學(xué)模型的商業(yè)應(yīng)用能力較強(qiáng),特別是開源算法的了解和應(yīng)用方面。
從企業(yè)角度來看,這兩組數(shù)據(jù)科學(xué)團(tuán)隊缺一不可,一個是數(shù)學(xué)模型的商業(yè)應(yīng)用能力,一個數(shù)據(jù)科學(xué)的技術(shù)和工程能力。在互聯(lián)網(wǎng)企業(yè)這兩組數(shù)據(jù)科學(xué)團(tuán)隊可能會屬于一個團(tuán)隊,在傳統(tǒng)企業(yè),建議將此兩組數(shù)據(jù)科學(xué)團(tuán)隊分開,各自承擔(dān)其屬于自己角色,也便于各自專業(yè)能力的發(fā)揮。
二、數(shù)據(jù)管理工具和數(shù)據(jù)科學(xué)平臺建設(shè)
高質(zhì)量的數(shù)據(jù)是數(shù)據(jù)科學(xué)商業(yè)化應(yīng)用的前提,企業(yè)經(jīng)歷了長時間的信息化建設(shè)之后,常常會出現(xiàn)數(shù)據(jù)孤島現(xiàn)象。數(shù)據(jù)科學(xué)應(yīng)用之前,需要先解決數(shù)據(jù)孤島這個問題。數(shù)據(jù)倉庫、數(shù)據(jù)湖、DMP都是解決數(shù)據(jù)孤島的工具和方式。企業(yè)需要建立數(shù)據(jù)管理工具和平臺,實現(xiàn)對數(shù)據(jù)的匯總、調(diào)用和標(biāo)注。企業(yè)如果要實現(xiàn)AI的商業(yè)應(yīng)用,也需要大量經(jīng)過標(biāo)注的數(shù)據(jù),這也是數(shù)據(jù)管理平臺的關(guān)鍵功能之一。
數(shù)據(jù)科學(xué)平臺是數(shù)據(jù)科學(xué)商業(yè)應(yīng)用能力個載體,互聯(lián)網(wǎng)企業(yè)具有較高的數(shù)據(jù)科學(xué)能力,其往往建設(shè)自己到數(shù)據(jù)科學(xué)平臺或者在開源平臺上進(jìn)行優(yōu)化,常見的開源數(shù)據(jù)科學(xué)平臺有Google的Tensorflow,Spark MLlib等。商業(yè)化的數(shù)據(jù)科學(xué)平臺參考?Gartner公布的2017年數(shù)據(jù)科學(xué)平臺報告有IBM,SAS,RapidMiner 等傳統(tǒng)廠商,也有遠(yuǎn)見者DominoData Lab,Dataiku,H2O.ai等硅谷新貴。
數(shù)據(jù)科學(xué)平臺還處于發(fā)展完善階段,地位現(xiàn)在比較尷尬,企業(yè)需要的不是一個工具平臺而是數(shù)據(jù)科學(xué)的商業(yè)化能力。很多數(shù)據(jù)科學(xué)平臺實施過程中需要配置十多位數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家來幫助企業(yè)實現(xiàn)數(shù)據(jù)的商業(yè)化能力。互聯(lián)網(wǎng)企業(yè)和技術(shù)能力較強(qiáng)企業(yè)的數(shù)據(jù)科學(xué)家基本上不用第三方的數(shù)據(jù)科學(xué)平臺,這些數(shù)據(jù)科學(xué)家直接在計算平臺Spark上進(jìn)行模型部署和調(diào)優(yōu),效率會更高。企業(yè)客戶的數(shù)據(jù)挖掘團(tuán)隊是數(shù)據(jù)科學(xué)平臺的主要用戶,其對平臺的主要需求是用戶體驗和計算便捷。
數(shù)據(jù)管理工具和科學(xué)平臺建設(shè)需要參考企業(yè)的實際數(shù)據(jù)應(yīng)用的成熟度,對于數(shù)據(jù)質(zhì)量好、成熟度高的企業(yè),數(shù)據(jù)管理工具和科學(xué)平臺可以同時建設(shè)。相反其他的企業(yè)先從數(shù)據(jù)管理工具DMP開始,打好數(shù)據(jù)管理的基礎(chǔ)之后,再開展數(shù)據(jù)科學(xué)的商業(yè)化應(yīng)用。
三、數(shù)據(jù)科學(xué)工程能力的提升
數(shù)據(jù)科學(xué)家和數(shù)據(jù)科學(xué)平臺僅僅是數(shù)據(jù)科學(xué)商業(yè)化應(yīng)用能力的基礎(chǔ),并不代表數(shù)據(jù)科學(xué)將會成為企業(yè)的商業(yè)引擎。無法輔助企業(yè)進(jìn)行商業(yè)決策,幫助企業(yè)實現(xiàn)實時營銷和反欺詐、實時商品庫存管理等。
數(shù)據(jù)科學(xué)的工程能力是數(shù)據(jù)科學(xué)成為商業(yè)引擎的核心能力。很多大型企業(yè),在數(shù)字化發(fā)展的進(jìn)程中,開發(fā)了很多業(yè)務(wù)模型,例如流失客戶預(yù)測,門店銷量預(yù)測等,但是這些業(yè)務(wù)模型大多是T+1天之后計算出結(jié)果,僅提供數(shù)據(jù)分析功能,不參與業(yè)務(wù)決策。業(yè)務(wù)人員參考這些業(yè)務(wù)模型的計算結(jié)果進(jìn)行分析和討論,經(jīng)過一段時間之后,再由業(yè)務(wù)人員進(jìn)行商業(yè)決策,指導(dǎo)業(yè)務(wù)操作。即使這些業(yè)務(wù)操作有明確的業(yè)務(wù)規(guī)則指導(dǎo),可以被模型固化執(zhí)行。業(yè)務(wù)模型在這種情況下,完全處于一種非實時,非決策狀態(tài),沒有在實質(zhì)上改進(jìn)商業(yè)決策效率,僅為商業(yè)決策提供輔助的數(shù)據(jù)支撐。數(shù)據(jù)科學(xué)的商業(yè)價值在這種情況線被大大的忽視了,也體現(xiàn)不了數(shù)據(jù)科學(xué)家的真實商業(yè)價值。
互聯(lián)網(wǎng)企業(yè)則不同,其基于數(shù)據(jù)科學(xué)的商業(yè)應(yīng)用正在實時的指導(dǎo)商業(yè)決策,成為其業(yè)務(wù)發(fā)展的商業(yè)引擎。在商品推送、廣告曝光、搜索結(jié)果排列、駕駛導(dǎo)航、業(yè)務(wù)派單等方面數(shù)據(jù)科學(xué)正在實時進(jìn)行商業(yè)決策,單位時間內(nèi)提升客戶體驗,推動商業(yè)高速發(fā)展,創(chuàng)造更大的商業(yè)價值。
數(shù)據(jù)科學(xué)的工程能力是企業(yè)數(shù)據(jù)科學(xué)商業(yè)化應(yīng)用能力的一個核心能力,其包括數(shù)據(jù)計算平臺的理論能力和應(yīng)用能力、算法能力、編程能力、統(tǒng)計分析能力等。數(shù)據(jù)科學(xué)的工程能力體現(xiàn)為將業(yè)務(wù)模型從線下計算轉(zhuǎn)向線上計算,從非實時計算轉(zhuǎn)向?qū)崟r計算,從非生產(chǎn)系統(tǒng)轉(zhuǎn)向生產(chǎn)系統(tǒng),從非決策系統(tǒng)轉(zhuǎn)向決策系統(tǒng)的工程化能力。數(shù)據(jù)科學(xué)的工程能力是互聯(lián)網(wǎng)企業(yè)數(shù)據(jù)科學(xué)團(tuán)隊的核心競爭力之一,也是傳統(tǒng)企業(yè)數(shù)據(jù)科學(xué)家團(tuán)隊?wèi)?yīng)該提升的能力。
大數(shù)據(jù)時代,當(dāng)面對海量數(shù)據(jù)和復(fù)雜商業(yè)環(huán)境時,企業(yè)的商業(yè)決策能力將非常重要,實時的商業(yè)決策可以幫助企業(yè)抓住商機(jī),提升運(yùn)營效率,降低商業(yè)成本,也會加速商業(yè)模式的迭代,順應(yīng)市場變化。數(shù)據(jù)科學(xué)是支撐企業(yè)實時商業(yè)決策的技術(shù)基礎(chǔ),也是企業(yè)未來發(fā)展的商業(yè)引擎。(TalkingData 首席布道師鮑忠鐵)
責(zé)任編輯:陳卓陽