來(lái)源:大數(shù)據(jù)文摘 時(shí)間:2017-06-23 16:36:57 作者:Alexander Egorenkov
很多人通常很難問(wèn)出合適的數(shù)據(jù)科學(xué)問(wèn)題。這是因?yàn)樗麄冞€沒(méi)有弄清楚問(wèn)題如何用數(shù)據(jù)解決方案來(lái)解決。數(shù)據(jù)科學(xué)工具起初可能看起來(lái)非常有限,但是我們可以將大多數(shù)真實(shí)世界的問(wèn)題改成我們數(shù)據(jù)科學(xué)的語(yǔ)言。在一個(gè)數(shù)據(jù)驅(qū)動(dòng)的環(huán)境下,如何有效的利用數(shù)據(jù)科學(xué),如何提出數(shù)據(jù)科學(xué)可以解決的問(wèn)題非常重要。
記憶-何人,何事,何地,或者事情是什么時(shí)候發(fā)生的?
理解-你可以總結(jié)出發(fā)生了什么?
應(yīng)用–如果…那將會(huì)發(fā)生什么?
分析-關(guān)鍵部分是什么以及它們的聯(lián)系......?
評(píng)價(jià)-這是最好的方法嗎?
創(chuàng)造-你可以預(yù)測(cè)在新的情況下會(huì)發(fā)生什么嗎?
可用的工具
(從業(yè)人員可能想跳過(guò)這段)
數(shù)據(jù)科學(xué)行業(yè)里有很多工具,但你可以把它們分解成幾個(gè)部分。
1)R/Python/SQL/EtcR/Python/SQL等軟件
我們可以使用SQL,R,Python等進(jìn)行數(shù)據(jù)操作來(lái)搜索和匯總數(shù)據(jù)。
這些軟件使我們可以解決“記憶”和“理解”的問(wèn)題,比如“我的最大用戶最后一次交易是什么時(shí)候?”
2)假設(shè)檢驗(yàn)(Hypothesis Testing)
我們只是將一系列數(shù)據(jù)分類,但這并不意味著我們發(fā)現(xiàn)了其中的聯(lián)系。假設(shè)檢驗(yàn)告訴我們我們的數(shù)據(jù)是否適用于新的情況,比如:“貓的照片能比狗的照片帶來(lái)更多流量嗎?”
3)情景分析
情景分析在各種條件下分析了許多種可能的未來(lái)結(jié)果。我們創(chuàng)造了許多可能的情景,然后預(yù)測(cè)會(huì)發(fā)生什么?!叭绻覀兲岣弋a(chǎn)品的價(jià)格會(huì)導(dǎo)致怎樣的結(jié)果?”
4)最優(yōu)化
最優(yōu)化是一個(gè)巨大的領(lǐng)域,但它通常要求簡(jiǎn)單,卻很難回答,比如最大化和最小化的問(wèn)題?!笆裁礃拥墓?yīng)路線能降低派送包裹的成本?”
5)增強(qiáng)學(xué)習(xí)
強(qiáng)化學(xué)習(xí)觀察數(shù)據(jù),和實(shí)時(shí)優(yōu)化的結(jié)果?!霸贔lappyBird游戲中我應(yīng)該什么時(shí)候點(diǎn)擊繼續(xù)?”
6)統(tǒng)計(jì)建模與機(jī)器學(xué)習(xí)
因?yàn)檫@些是巨大的領(lǐng)域,可能會(huì)比較麻煩我們來(lái)看幾個(gè)主要的任務(wù):
分類、回歸-“有多少…?”“什么類型…?”
特征選取-“哪些變量是有關(guān)的?”
降維-“哪些是我的數(shù)據(jù)中的關(guān)鍵組成部分?”
群集-“我可以將我的數(shù)據(jù)進(jìn)行分類嗎?”
異常檢測(cè)-“這個(gè)觀測(cè)數(shù)據(jù)奇怪嗎?”
7)分類與回歸
分類和回歸回答了“我的數(shù)據(jù)之間,一個(gè)或多個(gè)結(jié)果之間有關(guān)聯(lián)嗎”這樣的問(wèn)題。分類的重點(diǎn)在于預(yù)測(cè)組,“這是A還是B?”。回歸則側(cè)重于數(shù)量“結(jié)果的多少還是組別的多少”
8)特征選取
特征選取中辨認(rèn)出數(shù)據(jù)中的哪些特征是和結(jié)果有關(guān)的。想像我們要辨認(rèn)一種水果是蘋(píng)果還是橙子,我們采用數(shù)據(jù)特征中的顏色和甜度作為水果的特征。一個(gè)特征選取算法可以縮小顏色范圍作為有用的辨認(rèn),因?yàn)樘O(píng)果和橙子都是甜的。
9)降維
降維需要獲取數(shù)據(jù),將維數(shù)降低了。這就像圖像壓縮,我們使用更少的信息顯示相同的圖像。想象我們有關(guān)于一次性叉子,刀和盤(pán)子銷售的數(shù)據(jù)。降維可能會(huì)顯示一列一次性餐具的銷售情況。我們大概可以問(wèn)“我銷售數(shù)據(jù)中的關(guān)鍵模式是什么?”
10)群集
群集試圖采集數(shù)據(jù)并將類似的觀察數(shù)據(jù)自動(dòng)組合在一起。我們可以組織和處理數(shù)據(jù)成為幾種類型的觀察數(shù)據(jù)。我們問(wèn)“我是否有確切類型的客戶,或者他們都是獨(dú)一無(wú)二的?”
11)異常檢測(cè)
異常檢測(cè)回答觀察數(shù)據(jù)是否屬于數(shù)據(jù)集。我們大約問(wèn)道“這個(gè)溫度讀數(shù)是正常的還是不正常的?”重要的是,我們經(jīng)??梢院?jiǎn)化這個(gè)問(wèn)題。異常檢測(cè)就像是“這是否正常?”的這樣分類問(wèn)題一樣。
它們?nèi)绾谓Y(jié)合在一起?
我列出了常用數(shù)據(jù)科學(xué)問(wèn)題。每個(gè)問(wèn)題都是與共同的數(shù)據(jù)科學(xué)技術(shù)協(xié)作的另一種改述。問(wèn)題是從最簡(jiǎn)單的答案到最困難排序的。
1)記憶-何人,何事,何地,或者事情是什么時(shí)候發(fā)生的?
我們通過(guò)使用SQL,R,Python等軟件進(jìn)行數(shù)據(jù)采集和操作來(lái)回答問(wèn)題。
某位用戶用什么瀏覽器瀏覽這個(gè)網(wǎng)站?
我們發(fā)現(xiàn)在我們的數(shù)據(jù)中用戶會(huì)使用SQL,R,或Python來(lái)收集數(shù)據(jù)關(guān)于曾使用什么瀏覽器。
那些用戶是這么發(fā)現(xiàn)這個(gè)網(wǎng)站的?
我們發(fā)現(xiàn)在我們的數(shù)據(jù)中用戶會(huì)使用SQL、R、或者Python語(yǔ)言軟件來(lái)記錄流量來(lái)源。
2)理解-你可以總結(jié)出發(fā)生了什么嗎?
我們通過(guò)整合或匯總數(shù)據(jù)回答這類問(wèn)題。
我的用戶傾向于使用什么瀏覽器?
同樣,通過(guò)使用SQL,R,or Python軟件我們可以從瀏覽器數(shù)據(jù)結(jié)果中得出用戶的數(shù)量。
3)應(yīng)用-當(dāng)…時(shí)候發(fā)生了什么?
我們回答應(yīng)用問(wèn)題是需要用我們的結(jié)果來(lái)概括。假設(shè)檢驗(yàn),交叉驗(yàn)證和實(shí)驗(yàn)方法是確保歸納的技術(shù)。
在太陽(yáng)下照射的時(shí)間與植物的高度兩者之間有關(guān)系嗎?
這是一個(gè)回歸問(wèn)題,Y=f(X).Y代表植物的高度,f代表表示俘獲關(guān)系的任意模型,X是植物的陽(yáng)光照射時(shí)長(zhǎng)。
這個(gè)空調(diào)會(huì)在未來(lái)三年后會(huì)失效:是或否?
這是一個(gè)分類問(wèn)題,Y=f(X).Y={失敗,沒(méi)有失敗}.F代表俘獲關(guān)系的任意模型.X是記錄空調(diào)故障歷史記錄和相關(guān)特征的數(shù)據(jù).
這個(gè)圖像是哪種動(dòng)物?
這也是個(gè)分類問(wèn)題,Y=f(x),有時(shí)叫做多類分類問(wèn)題。Y={狗,貓,馬,其他}.f代表任意模型。數(shù)據(jù),X,將圖像編碼成表格形式的圖像。
那位顧客會(huì)不會(huì)購(gòu)買?
這是一個(gè)分類問(wèn)題Y=f(X),Y={買,不買}.X是有關(guān)顧客購(gòu)買習(xí)慣的數(shù)據(jù)。許多算法能夠給你的概率歸入一個(gè)特定的類。
這是銀行交易欺詐嗎?
這是一個(gè)分類問(wèn)題Y=f(x).Y={欺詐,不欺詐}.X是銀行交易數(shù)據(jù).異常檢測(cè)也可以解決這個(gè)問(wèn)題。即使沒(méi)有過(guò)去的數(shù)據(jù)來(lái)分辨?zhèn)瘟訕?biāo)簽,異常檢測(cè)也可能會(huì)起作用,但這是一個(gè)困難的問(wèn)題。
4)分析-關(guān)鍵部分是哪些和它們的關(guān)系..?
回答并分析問(wèn)題,你可以將數(shù)據(jù)打破并查找方式。特征選取,降維和群集是關(guān)鍵工具。
最能預(yù)測(cè)電力需求是什么因素?
這是特征選擇的回歸問(wèn)題,Y=f(X)。Y=需要的電量。f代表俘獲您的數(shù)據(jù)和所需電力之間關(guān)系的任何模型。X可能是價(jià)格,溫度,季節(jié),地區(qū)和諸多特征量。我們需要找到最重要的因素來(lái)使用特征選擇來(lái)減少不能預(yù)測(cè)電力需求的因素。
蘋(píng)果和橘子之間的主要差異是什么?
這是特征選取的分類問(wèn)題,Y=f(X)。Y={蘋(píng)果,橘子}。f表示俘獲數(shù)據(jù)關(guān)系的任何模型。X具有諸如高度,重量,顏色,味道和韌性等許多特征。特征選取找到區(qū)分蘋(píng)果和橘子的最佳特征。
我的暖通空調(diào)系統(tǒng)中的哪組傳感器往往會(huì)隨著(和反對(duì))彼此而變化?
這是屬于群集問(wèn)題,因?yàn)槲覀儗㈩愃频膫鞲衅鞅舜私M合。我們使用傳感器將數(shù)據(jù)組織為行和“讀取時(shí)間”作為列。
我的暖通空調(diào)系統(tǒng)中的什么傳感器組合將最好地顯示系統(tǒng)的整體健康狀況?
這是降維問(wèn)題。我們收集了大量數(shù)據(jù),并將其轉(zhuǎn)化為一些關(guān)鍵的績(jī)效指標(biāo)。既然這樣,我們組織數(shù)據(jù)關(guān)于不同的傳感器作為不同的列。
哪些觀眾喜歡同樣的電影?
有點(diǎn)奇怪,因?yàn)槲覀儑L試分組類似的用戶和類似的電影。這是典型的推薦引擎。我們也可以編寫(xiě)一個(gè)更簡(jiǎn)單的應(yīng)用程序,“這個(gè)用戶會(huì)喜歡這組電影嗎”甚至更簡(jiǎn)單的說(shuō)“這個(gè)用戶喜歡這部電影嗎”?
成功的CEO的共同點(diǎn)是什么?
起初這似乎屬于分組問(wèn)題。但如果你在字里行間仔細(xì)分析就會(huì)得到關(guān)鍵的差異。所有成功的CEO要吃飯,所有不成功的CEO也都要吃飯。我們對(duì)預(yù)測(cè)成功的結(jié)果更感興趣。
5)評(píng)估-這是最好的途徑嗎?
如果需要回答“評(píng)估”類問(wèn)題,您需要將您的數(shù)據(jù)背景推斷成復(fù)雜的假設(shè)情況下。
我們可以通過(guò)不同的產(chǎn)品定價(jià)來(lái)更好地節(jié)約資金嗎?
這可以歸屬于情景分析。我們提出了幾種定價(jià)方案,然后使用模型預(yù)測(cè)其影響。這可能涉及到分類,回歸和批判性思維。
6)創(chuàng)建-您可以預(yù)測(cè)在新條件下會(huì)發(fā)生什么事情嗎?
“創(chuàng)建”問(wèn)題要求您創(chuàng)建新的最佳解決方案。
我的送貨車應(yīng)該采取什么路線?
這是眾所周知的優(yōu)化問(wèn)題。主要標(biāo)準(zhǔn)是盡量減少花費(fèi)在燃料上的資金,并同時(shí)及時(shí)交付所有物品。
我們應(yīng)該在哪里設(shè)置新的位置?
在這里,我們需要根據(jù)具體標(biāo)準(zhǔn)進(jìn)行優(yōu)化。簡(jiǎn)單的一項(xiàng)是利潤(rùn)最大化,但在現(xiàn)實(shí)中,需要更多的去考慮。編寫(xiě)優(yōu)化是我們需要能夠評(píng)估的位置。這需要我們回到應(yīng)用,分析和評(píng)估階段。
我應(yīng)該把這個(gè)廣告在網(wǎng)頁(yè)上的何處,以便觀眾是最有可能點(diǎn)擊它的?
您可以將其寫(xiě)為優(yōu)化,但會(huì)有更好的選擇。在廉價(jià)的移動(dòng)廣告周圍并看看它如何執(zhí)行。這意味著我們可以嘗試,而不是提前做決定。嘗試定位廣告和測(cè)試其有效性。您甚至可以通過(guò)A/B測(cè)試或強(qiáng)化學(xué)習(xí)自動(dòng)化此過(guò)程。
我的自動(dòng)冷卻和加熱系統(tǒng)是否應(yīng)該將溫度調(diào)節(jié)到更高,更低,還是保持不變?
這是強(qiáng)化學(xué)習(xí)應(yīng)用非常好的領(lǐng)域。您的冷卻系統(tǒng)可以根據(jù)輸入的數(shù)據(jù)進(jìn)行調(diào)整,如電價(jià),時(shí)間,您的偏好。
有一句話:“當(dāng)我們有錘子時(shí),一切都將被當(dāng)作是釘子”。
這樣是不行的。我們應(yīng)該先問(wèn)對(duì)問(wèn)題。被我們使用的數(shù)據(jù)和工具搞的暈頭轉(zhuǎn)向,而使我們忘記了也許還可以解決更廣泛的問(wèn)題。
從簡(jiǎn)單到困難都是連續(xù)的數(shù)據(jù)問(wèn)題,提出許多小問(wèn)題,持續(xù)進(jìn)步,最終會(huì)引導(dǎo)你獲得從未想到的深刻見(jiàn)解。
原作者 |?Alexander Egorenkov
編譯 | 張?zhí)旖?,笪潔?/p>
責(zé)任編輯:陳近梅