來源:大數(shù)據(jù)文摘 時間:2018-01-12 17:28:56 作者:文摘菌
數(shù)據(jù)科學(xué)是一項(xiàng)團(tuán)隊活動。這一點(diǎn)不僅基于我們IBM內(nèi)部的工作經(jīng)驗(yàn),對于那些經(jīng)常向我們咨詢應(yīng)如何在自己的組織內(nèi)組建數(shù)據(jù)科學(xué)團(tuán)隊的企業(yè)客戶也同樣適用。
然而在此之前要記住,對于一個數(shù)據(jù)科學(xué)項(xiàng)目,其所需的各種技能都是非常罕見和獨(dú)特的。因此我們需要確保團(tuán)隊中的每個成員都能專注于他們自己最擅長的事情。
數(shù)據(jù)科學(xué)項(xiàng)目的角色分配、以及每個角色所需的技能如下表所示:
雖然每個角色分配都是明確的,但每個團(tuán)隊成員都必須具備T形技能——這意味著他們不僅需要深入自己的角色,而且還要粗略理解相鄰角色。
下面讓我們更深入地探索上述圖表中的四個角色。
產(chǎn)品所有者
產(chǎn)品所有者是所負(fù)責(zé)產(chǎn)品的主題專家,他們對特定的業(yè)務(wù)部門及其相應(yīng)關(guān)心的問題有深入的了解。在一些情況下,產(chǎn)品所有者將主要負(fù)責(zé)業(yè)務(wù)方面,他們也定期與數(shù)據(jù)科學(xué)團(tuán)隊合作以解決特定的數(shù)據(jù)科學(xué)等一系列問題,然后再回到更宏觀的主題專家角色上去。
事實(shí)上,回到原始角色是數(shù)據(jù)科學(xué)團(tuán)隊的一個好處。這意味著產(chǎn)品所有者作為模型的最終用戶,可以提供具體的反饋和請求。這也意味著產(chǎn)品所有者可以從業(yè)務(wù)部門本身提倡數(shù)據(jù)科學(xué)。
產(chǎn)品所有者主要負(fù)責(zé):
定義業(yè)務(wù)問題并與數(shù)據(jù)科學(xué)家合作來定義工作假設(shè)
根據(jù)需要幫助查找以及管理數(shù)據(jù)
代理和解決數(shù)據(jù)質(zhì)量問題
數(shù)據(jù)工程師
數(shù)據(jù)工程師是將所有數(shù)據(jù)移動到重心并通過服務(wù)和消息隊列連接數(shù)據(jù)的向?qū)?。他們還通過構(gòu)建API以使數(shù)據(jù)可用于企業(yè),他們負(fù)責(zé)將數(shù)據(jù)設(shè)計到最適合團(tuán)隊需求的平臺上。作為一位數(shù)據(jù)工程師,需要具備下面三大技能:
熟練掌握以下至少三種語言:Python,Scala,Java,Ruby,SQL
熟練使用和構(gòu)建REST API
能熟練的將預(yù)測和規(guī)范模型整合到應(yīng)用程序和流程中
數(shù)據(jù)科學(xué)家
數(shù)據(jù)科學(xué)家往往指的是兩個不同的角色之一:機(jī)器學(xué)習(xí)工程師和決策優(yōu)化工程師。由于市場條件導(dǎo)致“數(shù)據(jù)科學(xué)家”成為相當(dāng)熱門的角色,所以做出這種區(qū)分可以幫助消除理解上的困惑。
機(jī)器學(xué)習(xí)工程師
機(jī)器學(xué)習(xí)工程師需要建立機(jī)器學(xué)習(xí)模型,也即識別每個模型中使用的重要數(shù)據(jù)元素及其特征。他們確定要使用哪種類型的模型,并測試這些模型的準(zhǔn)確性和精度;他們還負(fù)責(zé)模型的長期監(jiān)測和維護(hù)。他們需要這三大技能:
應(yīng)用概率和統(tǒng)計的培訓(xùn)和經(jīng)驗(yàn)
具有數(shù)據(jù)建模和評估經(jīng)驗(yàn),對有監(jiān)督和無監(jiān)督機(jī)器學(xué)習(xí)有深入的理解
能在以下至少兩種語言中進(jìn)行編程:Python,R,Scala,Julia或Java,其中偏好Python專業(yè)知識
決策優(yōu)化工程師
決策優(yōu)化工程的技能和經(jīng)驗(yàn)與機(jī)器學(xué)習(xí)工程師重疊,但也有一些重要的差異。決策優(yōu)化工程師需要這三大技能:
具備通過應(yīng)用數(shù)學(xué)建模和/或約束規(guī)劃的經(jīng)驗(yàn)解決一系列行業(yè)問題的能力
熟練的Python編程技巧,具備將預(yù)測模型應(yīng)用于決策優(yōu)化問題的能力
具有建立蒙特卡羅模擬/優(yōu)化進(jìn)行假設(shè)情景分析的經(jīng)驗(yàn)
數(shù)據(jù)記者
接下來是數(shù)據(jù)記者,他們在推動數(shù)據(jù)的背景下呈現(xiàn)模型輸出,并且可以清楚地表達(dá)業(yè)務(wù)問題。成為一名數(shù)據(jù)記者,我們尋找這三大技能:
具備Python、Java或Scala編碼技能
具備在業(yè)務(wù)問題的背景下整合數(shù)據(jù)、預(yù)測模型和預(yù)定性模型輸出的相關(guān)經(jīng)驗(yàn)
熟練掌握數(shù)據(jù)解析、抓取和糾錯
如果你能把一個擁有這些基本技能的團(tuán)隊聚集在一起,并且能確保他們相互協(xié)作、保持對彼此工作的深刻理解,那么你定將發(fā)現(xiàn)你的洞察力和理解能力,可以成為你領(lǐng)導(dǎo)任何組織的超強(qiáng)動力。
但是如果沒有他們,你將會迷失方向。
Seth Dobrin是IBM Analytics的副總裁兼首席數(shù)據(jù)官。
原文鏈接:http://www.21jieyan.cn;isappinstalled=0
責(zé)任編輯:湯德正