精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

首頁 企業(yè)TalkingData正文

今天我們來說說企業(yè)的數(shù)據(jù)DNA

從人類起源開始,數(shù)據(jù)就在人們的生活中扮演著不可或缺的角色。人們從最簡單的通過繩結(jié)記錄數(shù)字,到現(xiàn)在通過磁盤存儲數(shù)據(jù),數(shù)據(jù)的種類和樣式也在不斷豐富,從簡單的數(shù)字到現(xiàn)在的日志,上網(wǎng)行為,圖片,視頻……現(xiàn)代企業(yè)在運(yùn)營的過程中,積累了大量的數(shù)據(jù),當(dāng)人們意識到分析這些數(shù)據(jù)能夠?yàn)槠髽I(yè)的運(yùn)營和決策產(chǎn)生價(jià)值的時(shí)候,大數(shù)據(jù)就出現(xiàn)了,當(dāng)人們發(fā)現(xiàn)這些數(shù)據(jù)可以讓計(jì)算器進(jìn)行學(xué)習(xí)從而更方便的為人類服務(wù)的時(shí)候,AI就應(yīng)運(yùn)而生。

但是,每個(gè)企業(yè)因?yàn)槠錁I(yè)務(wù)場景的不同,生產(chǎn)和記錄的數(shù)據(jù)也一定不同,因?yàn)閿?shù)據(jù)的差別,后面的分析算法便會千差萬別??梢哉f,數(shù)據(jù)是根源,決定著企業(yè)使用數(shù)據(jù),分析數(shù)據(jù)的方法,從而也決定了企業(yè)能夠從數(shù)據(jù)中獲取的價(jià)值。

今天我們來說說企業(yè)的數(shù)據(jù)DNA

數(shù)據(jù)影響技術(shù)選型

顯而易見,業(yè)務(wù)場景不同,生產(chǎn)的數(shù)據(jù)是不一樣的。但是由于其使用數(shù)據(jù)的方式和數(shù)據(jù)量不一樣,技術(shù)選型的側(cè)重點(diǎn)會有所不同。

最合適的技術(shù)選型,會減小運(yùn)維成本,提高運(yùn)營效率。數(shù)據(jù)量決定數(shù)據(jù)的存儲方式,比如,一個(gè)小型的個(gè)人網(wǎng)站,那么最合適的就是去云平臺租一臺機(jī)器,然后使用mysql等關(guān)系型數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲;如果是再大一些的門戶網(wǎng)站,那么就可能需要進(jìn)行負(fù)載均衡,使用多種數(shù)據(jù)存儲方式:關(guān)系型數(shù)據(jù)庫,key-value數(shù)據(jù)庫,no-sql數(shù)據(jù)庫等等,并且集群化數(shù)據(jù)庫,或者用分布式文件系統(tǒng)進(jìn)行數(shù)據(jù)備份和存儲等;再大一些的諸如BAT這種級別的公司,會使用多機(jī)房多點(diǎn)進(jìn)行數(shù)據(jù)備份,數(shù)據(jù)分析的工具會根據(jù)不同子業(yè)務(wù)的需求,選用不同的技術(shù)。

數(shù)據(jù)的處理方式?jīng)Q定數(shù)據(jù)處理工具,例如,對實(shí)時(shí)分析要求比較高的場景,需要引進(jìn)流式處理技術(shù),spark在更新到2.0后,對sparkstreaming 進(jìn)行了重大更新,相信以后會是流式數(shù)據(jù)處理的主流技術(shù);如果是要求對全量數(shù)據(jù)進(jìn)行分析,那么可能需要更快的集群化數(shù)據(jù)分析技術(shù),現(xiàn)在看來,spark還是最主流的數(shù)據(jù)分析工具。

總而言之,圍繞數(shù)據(jù)進(jìn)行技術(shù)選型,是最直接和高效的方式。

數(shù)據(jù)決定算法選擇和產(chǎn)出效果

因?yàn)閿?shù)據(jù)維度和數(shù)據(jù)量的不同,各個(gè)公司進(jìn)行機(jī)器學(xué)習(xí)使用的工具和算法當(dāng)然也是不同的。因?yàn)楝F(xiàn)在無監(jiān)督學(xué)習(xí)或者說是預(yù)測學(xué)習(xí)的技術(shù)還不算成熟,大部分的公司還是在利用監(jiān)督式學(xué)習(xí)方式進(jìn)行機(jī)器學(xué)習(xí),分析和預(yù)測,但監(jiān)督式學(xué)習(xí)的算法中,經(jīng)典算法無非那么幾種,而且有很多開源的程序包可供使用,單機(jī)的諸如java版的weka,python的sklean,集群版的如spark的mllib等,

然而,這些算法在實(shí)際應(yīng)用中,都應(yīng)該進(jìn)行特定方向的優(yōu)化才能用于生產(chǎn)。每個(gè)公司根據(jù)自己數(shù)據(jù)維度或者希望產(chǎn)出的不同,會選擇不同的算法或者不同的優(yōu)化方向。比如,廣告公司希望預(yù)測CTR,因?yàn)槠鋽?shù)據(jù)維度巨大,基本會選擇邏輯回歸,這類問題對預(yù)測的準(zhǔn)確率要求非常高,預(yù)測準(zhǔn)確率上升零點(diǎn)幾個(gè)百分點(diǎn)就已經(jīng)說明算法優(yōu)化很成功,騰訊利用了深度學(xué)習(xí)進(jìn)行CTR預(yù)測算法的優(yōu)化,取得了不錯(cuò)的效果;還有一些場景,數(shù)據(jù)量非常大,維度也很多,但是對準(zhǔn)確率的要求不是非常高,但是對算法的執(zhí)行效率要求很嚴(yán)格,這個(gè)時(shí)候的優(yōu)化重點(diǎn)就是在保證準(zhǔn)確率或者說犧牲一些準(zhǔn)確率的前提下,對算法的執(zhí)行效率進(jìn)行優(yōu)化。算法科學(xué)家們會發(fā)明越來越好的算法,開源時(shí)代的來臨也會讓我們有機(jī)會快速使用到這些方法,然而,根據(jù)自身數(shù)據(jù)選擇合適算法,永遠(yuǎn)是效率最高的方式。

輸入決定輸出,給算法輸入的數(shù)據(jù),會影響算法輸出的效果。很多企業(yè)都想分析自己用戶的人口統(tǒng)計(jì)學(xué)信息,基本的方式都是,從數(shù)據(jù)中尋找用戶行為特征,構(gòu)建數(shù)據(jù),如果沒有直接的標(biāo)簽數(shù)據(jù)的話,會從數(shù)據(jù)中找一些典型數(shù)據(jù)人工標(biāo)注一些標(biāo)簽,或者從外部引進(jìn)一些數(shù)據(jù)作為標(biāo)簽,有了數(shù)據(jù)和標(biāo)簽,就能進(jìn)行一次機(jī)器學(xué)習(xí)了。我們先不考慮標(biāo)簽數(shù)據(jù)的質(zhì)量,只看一下行為特征數(shù)據(jù),某門戶網(wǎng)站的做法是收集用戶看過的文章等信息,再根據(jù)文章做自然語言處理,得到一些特征,某應(yīng)用市場的做法是根據(jù)用戶下載的app作為行為特征進(jìn)行分類,兩種方式的輸入數(shù)據(jù)完全不一樣,門戶網(wǎng)站是在app里面的具體行為,而應(yīng)用市場是在設(shè)備內(nèi)的行為,完全不在一個(gè)維度上面。因?yàn)檫@兩種數(shù)據(jù)不一樣,產(chǎn)生的結(jié)果可能截然不同,同一個(gè)設(shè)備可能在兩種數(shù)據(jù)中分析得到的性別完全不一樣。這也說明,如果單獨(dú)用企業(yè)內(nèi)部業(yè)務(wù)生產(chǎn)的數(shù)據(jù)進(jìn)行分析的話,結(jié)果非常有可能是有偏差的。

經(jīng)營數(shù)據(jù)才能健康成長

可以說,數(shù)據(jù)就像企業(yè)的DNA一樣,表達(dá)著企業(yè)的業(yè)務(wù)場景,刻畫著企業(yè)的技術(shù)路線,決定著企業(yè)的數(shù)據(jù)分析效果。數(shù)據(jù)作為基礎(chǔ),是需要經(jīng)營和管理的,我們需要知道原始數(shù)據(jù)的流入途徑;需要嚴(yán)格執(zhí)行原始數(shù)據(jù)以及由原始數(shù)據(jù)衍生的核心數(shù)據(jù)的備份和備份恢復(fù)演練;需要知道每一份數(shù)據(jù)的metadata和其父數(shù)據(jù)(即從哪些數(shù)據(jù)整理得出)是哪些,以及操作人和責(zé)任人是誰;需要嚴(yán)格管理數(shù)據(jù)的權(quán)限;需要嚴(yán)格控制數(shù)據(jù)的留存周期和數(shù)據(jù)的流出,需要有針對數(shù)據(jù)的監(jiān)控。在此基礎(chǔ)上,還要合理管理和利用存儲資源和計(jì)算資源池,避免資源的浪費(fèi)。

以上寥寥幾語,看似簡單,但是如果要做到、做好其實(shí)非常困難,就拿數(shù)據(jù)的備份和備份恢復(fù)演練來說,幾乎所有的互聯(lián)網(wǎng)公司都做數(shù)據(jù)備份,但是備份恢復(fù)演練卻幾乎很少公司去做,前段時(shí)間,gitlib由于程序員的誤操作,刪除了幾百G的原始數(shù)據(jù),當(dāng)想要從備份中進(jìn)行恢復(fù)的時(shí)候,發(fā)現(xiàn)備份機(jī)器上面,竟然沒有記錄任何數(shù)據(jù)。我們治理數(shù)據(jù),治理好了,就是一個(gè)清澈的數(shù)據(jù)湖,如果治理不好,則變成了進(jìn)去就出不來的數(shù)據(jù)沼澤。

現(xiàn)在市面上數(shù)據(jù)分析工具很多,但是數(shù)據(jù)管理工具卻沒有很突出的,因?yàn)閿?shù)據(jù)管理確實(shí)非常復(fù)雜。TalkingData推出了DMP工具,是SmartDP生態(tài)下的一款數(shù)據(jù)管理工具,基本能夠解決上述問題,他能夠管理元數(shù)據(jù),數(shù)據(jù)權(quán)限等,提供數(shù)據(jù)分析工具,你可以在平臺中用多種語言進(jìn)行數(shù)據(jù)分析,還可以進(jìn)行機(jī)器學(xué)習(xí),提供可拖拽的流式計(jì)算處理方案等。

數(shù)據(jù)是企業(yè)的DNA,企業(yè)要不斷經(jīng)營自己的DNA,使其愈加強(qiáng)壯,才能健康成長。

數(shù)據(jù)融合才是制勝之道

上文說到,企業(yè)自身生產(chǎn)的數(shù)據(jù),很多情況下存在維度單一,數(shù)據(jù)質(zhì)量不高的問題,分析的效果就會有一個(gè)上限,在一定程度上,制約了業(yè)務(wù)的發(fā)展。這會產(chǎn)生一個(gè)惡性循環(huán),業(yè)務(wù)場景產(chǎn)生數(shù)據(jù),而數(shù)據(jù)又反過來制約業(yè)務(wù),這也是現(xiàn)在很多企業(yè)存在的痛點(diǎn),急需引進(jìn)外部數(shù)據(jù)提升自己數(shù)據(jù)維度和質(zhì)量。還有,很多傳統(tǒng)行業(yè)公司積累了大量的高質(zhì)量用戶數(shù)據(jù),但這些用戶數(shù)據(jù),由于涉及到用戶隱私,沒有辦法將他們真正應(yīng)用于產(chǎn)品推廣和營銷上面,使得這部分?jǐn)?shù)據(jù)白白占用著存儲資源,很多高質(zhì)量的數(shù)據(jù),因?yàn)橘Y源有限被丟棄掉。

我們設(shè)想一個(gè)場景,某金融類公司想要為他們新的金融產(chǎn)品進(jìn)行推廣,在老用戶召回的基礎(chǔ)上,希望找到更多的新用戶,傳統(tǒng)的方式是地推,發(fā)短信推廣,找DSP在網(wǎng)上投放,這樣尋找新用戶其實(shí)無異于大海撈針,如果能夠把他們的老用戶的數(shù)據(jù)進(jìn)行合理利用,和這些用戶的行為特征匹配后,根據(jù)這些人的行為特征進(jìn)行學(xué)習(xí),得到這類人的喜好模型,根據(jù)這個(gè)模型尋找這類人最相似的一群人,作為推廣的目標(biāo)人群,可以想象,這樣的效果會提升很多。這種方法其實(shí)很多人都能想到,但是問題是,金融企業(yè)的數(shù)據(jù)沒有辦法從內(nèi)部流出,即使加密后流出,也沒有辦法進(jìn)行數(shù)據(jù)的匹配,即使匹配上,也沒有足夠維度的用戶行為數(shù)據(jù)進(jìn)行分析,層層困難,導(dǎo)致這項(xiàng)工作基本上沒法進(jìn)行。

TalkingData曾經(jīng)遇到過與上述場景相似的案例:某銀行希望可以找到更多的高價(jià)值客戶進(jìn)行營銷,提升理財(cái)產(chǎn)品的銷售額。因?yàn)榻鹑谄髽I(yè)客戶具有典型的帕累托效益,20%的客戶貢獻(xiàn)了80%的業(yè)務(wù)收入。TalkingData利用數(shù)據(jù)分析發(fā)現(xiàn),某銀行的移動客戶端上8%的銀行理財(cái)客戶擁有銀行75%左右的資產(chǎn)。TalkingData將3萬高資產(chǎn)用戶作為種子,以高資產(chǎn)客戶相關(guān)變量作為輸入,通過Lookalike算法,在幾百萬的移動設(shè)備中,計(jì)算出這些與高資產(chǎn)設(shè)備相似的設(shè)備,再借助于數(shù)字營銷模塊中推送功能和SMS功能進(jìn)行營銷。為了獲得最佳效果,本次使用TalkingData SmartDP平臺訓(xùn)練高凈值客戶挖掘模型的過程中,采用多個(gè)維度客戶數(shù)據(jù)作為輸入變量,包含設(shè)備聚集點(diǎn),App應(yīng)用信息,設(shè)備信息,結(jié)合銀行的交易信息,客戶信息等,在5000萬的數(shù)據(jù)維度中尋找高價(jià)值客戶。在兩個(gè)月內(nèi),銀行利用這種方式銷售出10多億理財(cái)產(chǎn)品,最終增加了15%的高價(jià)值客戶,而營銷費(fèi)用僅為傳統(tǒng)營銷的5%。

可以說,數(shù)據(jù)能夠安全的進(jìn)行交易、交換、匹配,或者說擁有數(shù)據(jù)的公司之間的緊密合作,是大數(shù)據(jù)發(fā)展的下一個(gè)春天。

我們知道,DNA只有保持多樣性才能讓后代更加茁壯的繁衍下去,數(shù)據(jù)也一樣,只有讓數(shù)據(jù)流動起來,才能夠真正產(chǎn)生價(jià)值。希望TalkingData能夠?yàn)槟峁┤轿坏臄?shù)據(jù)解決方案,和企業(yè)共同成長。

?點(diǎn)此進(jìn)入 TalkingData 在數(shù)據(jù)觀的企業(yè)欄目>>>

責(zé)任編輯:王培

分享: