來(lái)源:大數(shù)據(jù)文摘 時(shí)間:2017-04-19 10:04:38 作者:鄧旭川 魏子敏
?“數(shù)據(jù)分析師與數(shù)據(jù)科學(xué)家的區(qū)別 就像本科與博士做研究一樣:本科生是老師手把手教題目,而博士生是自己找題目?!?/p>
?作為人群聚集區(qū),城市是一個(gè)天然的數(shù)據(jù)集中池。
?社交媒體、交通流量、氣象、地理等多種大數(shù)據(jù)都在這里匯聚,物聯(lián)網(wǎng)、傳感器的發(fā)展,也讓這些數(shù)據(jù)得以被追蹤存儲(chǔ)。當(dāng)這些時(shí)空數(shù)據(jù)集被組合起來(lái),并與人工智能結(jié)合,這似乎是一條解決交通擁堵、環(huán)境惡化、能耗增加等城市問(wèn)題的新的角度。
?“我們都生活在城市中,城市跟我們的生活密切相關(guān)。我是做計(jì)算機(jī)科學(xué)的人,那為什么不能想辦法解決身邊的那些最常見(jiàn)的問(wèn)題呢?”在一次公開(kāi)采訪中,鄭宇如此描述自己鐘情城市計(jì)算的一個(gè)原因。
?近年來(lái),城市計(jì)算(Urban Computing)逐漸走入公眾視野,并且越來(lái)越受到社會(huì)關(guān)注。這是是計(jì)算機(jī)科學(xué)以城市為背景,與城市規(guī)劃、交通、能源、環(huán)境、社會(huì)學(xué)和經(jīng)濟(jì)等學(xué)科融合的新興領(lǐng)域。城市計(jì)算通過(guò)不斷獲取、整合和分析城市中不同領(lǐng)域的大數(shù)據(jù)來(lái)解決城市所面臨的挑戰(zhàn)。
?在2013年,鄭宇因?yàn)樵诔鞘杏?jì)算方面的杰出研究被《MIT科技評(píng)論評(píng)》評(píng)為全球杰出青年創(chuàng)新者。
?雅虎創(chuàng)始人楊致遠(yuǎn)、谷歌聯(lián)合創(chuàng)始人拉里?佩奇、Facebook創(chuàng)始人馬克?扎克伯格、Twitter聯(lián)合創(chuàng)始人杰克?多西以及蘋果設(shè)計(jì)師喬納森?艾維等多位互聯(lián)網(wǎng)明星都曾入選TR35。而鄭宇是當(dāng)年入選者中僅有的兩位來(lái)自中國(guó)機(jī)構(gòu)的創(chuàng)新者之一。
?微軟研究院鄭宇帶領(lǐng)團(tuán)隊(duì)主持“城市計(jì)算”以來(lái),通過(guò)分析和融合城市中的各種大數(shù)據(jù),實(shí)現(xiàn)了一系列關(guān)于智能交通、城市規(guī)劃、環(huán)境和能源的實(shí)際案例。相關(guān)技術(shù)不僅被應(yīng)用于微軟的產(chǎn)品,并且還在多個(gè)城市服務(wù)于中國(guó)政府。
?3月20日,微軟亞洲研究院“城市計(jì)算”領(lǐng)域負(fù)責(zé)人鄭宇博士近期在清華大數(shù)據(jù)講座上分享了題為“大數(shù)據(jù)驅(qū)動(dòng)城市計(jì)算”的講座。
?演講后,我們有幸針對(duì)“數(shù)據(jù)科學(xué)團(tuán)隊(duì)建設(shè)問(wèn)題”對(duì)鄭宇博士補(bǔ)充了相關(guān)采訪問(wèn)題,針對(duì)這樣一個(gè)時(shí)空數(shù)據(jù)交雜的分析領(lǐng)域,鄭宇在組建數(shù)據(jù)團(tuán)隊(duì)和數(shù)據(jù)人才培養(yǎng)方面有著自己的獨(dú)到見(jiàn)解,此外,針對(duì)技術(shù)和研究方向上,他也給出了基于自己經(jīng)驗(yàn)的看法。
?以下為問(wèn)答實(shí)錄——
數(shù)據(jù)分析師與數(shù)據(jù)科學(xué)家的區(qū)別
就像本科與博士做研究一樣
▼
?Q:數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家有什么區(qū)別?
?鄭宇:很多公司的招聘廣告上面寫招聘數(shù)據(jù)科學(xué)家其實(shí)都不是招真正的數(shù)據(jù)科學(xué)家,而是數(shù)據(jù)分析師。數(shù)據(jù)分析師有明確的任務(wù),明確的數(shù)據(jù),結(jié)果也明確,他會(huì)用一些分析工具去跑一些報(bào)表,然后提交結(jié)果。而數(shù)據(jù)科學(xué)家要有能力自己找題目,首先要懂得行業(yè)問(wèn)題,其次懂得數(shù)據(jù)背后的隱含信息,然后還要知道這個(gè)行業(yè)問(wèn)題之后你要知道用什么數(shù)據(jù)如何解決這個(gè)問(wèn)題。除此以外,還要對(duì)各種模型都很清楚,不光是機(jī)器學(xué)習(xí),還有數(shù)據(jù)管理以及可視化,把很多模型要組合在一起。最后要對(duì)云計(jì)算平臺(tái)有一定的了解,要學(xué)會(huì)怎么用,甚至要學(xué)會(huì)怎么改它,一個(gè)好的數(shù)據(jù)科學(xué)家是站在云平臺(tái)上面看問(wèn)題、想數(shù)據(jù)、關(guān)聯(lián)模型,把這些模型有機(jī)組合起來(lái)部署到云平臺(tái)上面,產(chǎn)生鮮活的知識(shí),解決行業(yè)問(wèn)題,這個(gè)才是大數(shù)據(jù)。其中的區(qū)別就像本科與博士做研究一樣,本科生是老師手把手教題目,博士生是自己找題目。
?我通過(guò)兩個(gè)例子講述一下什么叫數(shù)據(jù)科學(xué)家,什么叫數(shù)據(jù)分析師:
?先舉一個(gè)數(shù)據(jù)分析師的例子:銀行向用戶發(fā)信用卡,用戶提交的表格上有他的年齡、職業(yè)、收入等信息,需要分析師判斷是否給這個(gè)用戶發(fā)信用卡。這是一個(gè)YES or NO的問(wèn)題,分析師要做的是拿個(gè)人的信用記錄去訓(xùn)練一個(gè)分類模型。任務(wù)明確,數(shù)據(jù)明確,決定也很明確。
?再說(shuō)一個(gè)政府向數(shù)據(jù)科學(xué)家提出的需求:“徐匯區(qū)有一條路灰很多,怎么用大數(shù)據(jù)去處理?”、“北京市建副中心到通州以后對(duì)北京整個(gè)的經(jīng)濟(jì)、環(huán)境、交通有什么影響?”這個(gè)問(wèn)題不是因果問(wèn)題,不是預(yù)測(cè)問(wèn)題,也不是關(guān)聯(lián)問(wèn)題,需要你去想找什么樣的數(shù)據(jù),怎么展現(xiàn)怎么實(shí)施。沒(méi)有具體問(wèn)題也沒(méi)有具體數(shù)據(jù),這就是數(shù)據(jù)科學(xué)家應(yīng)該解決的問(wèn)題。
?Q:您的團(tuán)隊(duì)大致有多少人組成?與數(shù)據(jù)相關(guān)的團(tuán)隊(duì)有多少人,有哪些不同的職位劃分?
?鄭宇:我的核心團(tuán)隊(duì)其實(shí)沒(méi)有大家想象的那么大。有2位研究員、4名軟件工程師和八、九名研究助理組成。根據(jù)城市計(jì)算的四個(gè)層面(城市感知、城市數(shù)據(jù)管理、城市數(shù)據(jù)的分析和挖掘、服務(wù)提供)以及每個(gè)人的特長(zhǎng)和興趣,我會(huì)給這些組員分配不同的工作。其中一位研究員帶領(lǐng)幾名研究助理和工程師,負(fù)責(zé)數(shù)據(jù)管理層面。另一位研究員帶領(lǐng)幾名研究助理和工程師,負(fù)責(zé)城市數(shù)據(jù)的挖掘和分析層面。另外幾名研究助理會(huì)分布在城市感知以及服務(wù)提供兩個(gè)層面。我會(huì)參與到城市計(jì)算各個(gè)層面的項(xiàng)目中去。此外,我們會(huì)跟一些合作伙伴展開(kāi)合作,比如,會(huì)有一些高校的團(tuán)隊(duì)在某些項(xiàng)目中幫助我們做一些可視分析. 另外,我們也會(huì)經(jīng)常跟市場(chǎng)部門的合作伙伴一起跟客戶溝通,了解他們的需求,協(xié)調(diào)數(shù)據(jù)并最終部署技術(shù)。
?Q:數(shù)據(jù)相關(guān)團(tuán)隊(duì)在微軟及您的整個(gè)團(tuán)隊(duì)中所處地位如何?
?鄭宇:數(shù)據(jù)團(tuán)隊(duì)在一個(gè)項(xiàng)目的始終都扮演者及其重要的作用。從最開(kāi)始的市場(chǎng)接入環(huán)節(jié),我們的數(shù)據(jù)團(tuán)隊(duì)就要開(kāi)始參與到其中,了解用戶的需求和掌握的數(shù)據(jù)情況,甚至要幫助用戶分析和提出他們的需求。在現(xiàn)在這些數(shù)據(jù)驅(qū)動(dòng)和人工智能主導(dǎo)的項(xiàng)目中,單純依靠銷售和市場(chǎng)團(tuán)隊(duì)很難打開(kāi)局面,也很難形成跟客戶的有效配合。最后期,我們還要對(duì)第三方運(yùn)維企業(yè)做有效的培訓(xùn),確保他們能夠維護(hù)我們部署的系統(tǒng)。
大數(shù)據(jù)時(shí)代我們真的不再缺數(shù)據(jù)了
缺得是我們的思維不夠開(kāi)放
▼
?Q:一個(gè)好的數(shù)據(jù)科學(xué)家最關(guān)鍵的品質(zhì)是什么?
?鄭宇:你會(huì)發(fā)現(xiàn)在大數(shù)據(jù)時(shí)代我們真的不再缺數(shù)據(jù)了,缺得是我們的思維不夠開(kāi)放,思考問(wèn)題A的時(shí)候不要一直看問(wèn)題A的數(shù)據(jù),其實(shí)會(huì)發(fā)現(xiàn)問(wèn)題B和C的數(shù)據(jù)都可以拿來(lái)用,而且這個(gè)數(shù)據(jù)完全可以不是你這個(gè)領(lǐng)域的數(shù)據(jù)。只有你對(duì)這個(gè)問(wèn)題理解深刻以后才能把別的數(shù)據(jù)背后的知識(shí)拿過(guò)來(lái)做融合。很多時(shí)候項(xiàng)目推動(dòng)不了不是人數(shù)不夠,而是因?yàn)槿狈χ虚g靈魂的頭腦,培養(yǎng)這樣的人其實(shí)是非常困難的。以我個(gè)人的經(jīng)驗(yàn)至少七到十年才能培養(yǎng)出這樣一個(gè)真正的數(shù)據(jù)科學(xué)家來(lái),這樣一個(gè)人可以解決很多問(wèn)題。所以我鼓勵(lì)大家,你至少讀一個(gè)五年P(guān)HD加兩年的實(shí)戰(zhàn)經(jīng)驗(yàn),基本上可以來(lái)做這樣的事情。
?Q:那么算法的理論知識(shí)和實(shí)際項(xiàng)目的實(shí)踐經(jīng)驗(yàn)?zāi)膫€(gè)更重要?
?鄭宇:兩個(gè)方面都很重要,但是后者的學(xué)習(xí)和獲取過(guò)程更困難。
?數(shù)據(jù)挖掘的模型你可能拿本書學(xué)個(gè)兩三年基本能學(xué)會(huì)一些模型,但是很多項(xiàng)目的經(jīng)驗(yàn),你的真的很少有機(jī)會(huì)接觸到這樣的項(xiàng)目。只有把系統(tǒng)部署到真實(shí)世界中用起來(lái),拿到新的反饋,再改進(jìn)模型,經(jīng)過(guò)這幾次迭代過(guò)程你會(huì)學(xué)到很多東西,但是這個(gè)機(jī)會(huì)特別少,特別難得。而且你從后者怎么吸取和提煉這種經(jīng)驗(yàn)也很重要,如果沒(méi)有總結(jié)能力和提取能力的話,換個(gè)新問(wèn)題你還是不會(huì)做。所以我覺(jué)得這兩者都重要,后者培養(yǎng)起來(lái)更加困難一點(diǎn)。
?Q:您怎么看待數(shù)據(jù)驅(qū)動(dòng)?數(shù)據(jù)驅(qū)動(dòng)在一個(gè)企業(yè)可以輔助商業(yè)決策,請(qǐng)列舉在過(guò)去幾年利用數(shù)據(jù)解決研究問(wèn)題/發(fā)現(xiàn)觀點(diǎn)的一個(gè)有趣的例子。
?鄭宇:從商業(yè)選址到空氣質(zhì)量預(yù)測(cè),數(shù)據(jù)驅(qū)動(dòng)的方法已經(jīng)多次作出了有效的決策。比如,合理的為商業(yè)店面選址可以帶來(lái)更多的人氣,提升商業(yè)的收益并降低企業(yè)的投入。通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方法為充電樁選址,可以讓有限的資源為更多車服務(wù),并且避免過(guò)度擁堵。另外,在住宅地產(chǎn)選址的過(guò)程中,我們發(fā)現(xiàn)除了學(xué)區(qū)房,影響小區(qū)價(jià)值的另一個(gè)重要因素是該小區(qū)通向最近高速公路入口的路網(wǎng)距離(或者通行時(shí)間)。位置很近的兩個(gè)小區(qū),其價(jià)值(根據(jù)同一市場(chǎng)環(huán)境下的漲幅比來(lái)確定)可以相差很遠(yuǎn)。
關(guān)于數(shù)據(jù)模型資產(chǎn)的復(fù)用
有兩個(gè)東西可以轉(zhuǎn)移
▼
?Q:北上廣這些城市的數(shù)據(jù)化基礎(chǔ)設(shè)施比較好,那么在這些地區(qū)做城市研究會(huì)相對(duì)可操作,但是,在其他的比較落后的地區(qū)如何開(kāi)展相關(guān)城市計(jì)算研究呢?
?鄭宇:我們?cè)谘芯恐校瑫?huì)遇到有兩個(gè)類似的模型應(yīng)用場(chǎng)景的情況,但是我們不能直接把在A場(chǎng)景做的模型應(yīng)用到B場(chǎng)景去,這時(shí)候,我建議基于遷移學(xué)習(xí)的方法來(lái)做不同場(chǎng)景間的知識(shí)的轉(zhuǎn)移。有兩個(gè)東西可以轉(zhuǎn)移:
?第一,數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系可以轉(zhuǎn)移:比如說(shuō)出現(xiàn)擁堵的時(shí)候空氣質(zhì)量會(huì)變壞,當(dāng)濕度比較高的時(shí)候容易形成霧霾。這種數(shù)據(jù)和數(shù)據(jù)之間的關(guān)系在很多地方都是普遍存在的,可以在A 城市里面用豐富的數(shù)據(jù)訓(xùn)練出一些字典,然后以此為基準(zhǔn)復(fù)用到B、C、D城市去。
?第二,利用隱含空間:數(shù)據(jù)本身可能不能轉(zhuǎn)移,但是把數(shù)據(jù)投影到隱含空間以后,不同城市的數(shù)據(jù)就可以共享。我舉個(gè)隱含空間的例子,比如北京市的交通流量和寧波市的交通流量肯定很不一樣,但是它們投影到隱含空間里面可能都是早高峰堵、晚高峰堵中間不堵,如果都能投影到類似的隱含空間以后,不同城市的數(shù)據(jù)就可以共享和利用。
?Q:如何選擇模型特征?
?鄭宇:在做模型特征選擇時(shí),數(shù)據(jù)質(zhì)量比特征重要,特征比模型重要。
?第一,如果你根本都沒(méi)這個(gè)數(shù)據(jù)的話你可能費(fèi)很大勁設(shè)計(jì)各種模型才能得到一點(diǎn)好的結(jié)果,如果你的數(shù)據(jù)質(zhì)量很好,你有這個(gè)數(shù)據(jù)了,就很容易得到結(jié)果。
?第二,業(yè)務(wù)理解深度和對(duì)數(shù)據(jù)的敏感度決定了你能找到的特征好壞。如果提了很好的特征,可能根據(jù)兩三個(gè)特征就能得到別人十幾個(gè)特征的不得結(jié)果。我們提取什么特征完全取決于我們對(duì)問(wèn)題本身的理解,所以我著眼在與行業(yè)知識(shí)結(jié)合,數(shù)據(jù)挖掘其實(shí)是一個(gè)發(fā)現(xiàn)知識(shí)的過(guò)程,我們需要有從數(shù)據(jù)里面提煉知識(shí)解決問(wèn)題的能力。
?第三,數(shù)據(jù)越大、質(zhì)量越好,特征的選擇的必要性越低。在傳統(tǒng)的數(shù)據(jù)挖掘里往往有很多參數(shù)但訓(xùn)練樣本又很少,所以不得不進(jìn)行特征優(yōu)選,使得訓(xùn)練樣本還是那么多,但是參數(shù)變少,這樣可以保證訓(xùn)練效果跟以前不差甚至更好。而現(xiàn)在我們擁有海量數(shù)據(jù)了,哪怕多選了一些冗余的特征,也可以依靠后面模型的力量來(lái)通過(guò)權(quán)重參數(shù)的做約束,越來(lái)越多的機(jī)器學(xué)習(xí)算法本身就考慮了特征的冗余性問(wèn)題,所以在你擁有足夠大的高質(zhì)量數(shù)據(jù)之后,是沒(méi)必要花費(fèi)太多的精力在特征剔除上。
有問(wèn)題的時(shí)候不要
先去看別人怎么做的
最重要的是你是否真的
對(duì)用數(shù)據(jù)解決問(wèn)題感興趣
▼
?Q:怎么決定研究方向?
?鄭宇:我們基本上所有的工作都來(lái)源對(duì)生活的觀察。最重要的一點(diǎn)是你是否真的對(duì)用數(shù)據(jù)解決問(wèn)題感興趣,你真正能夠體會(huì)到這種樂(lè)趣的時(shí)候就進(jìn)入狀態(tài)了。
?通常我們?cè)诳吹浆F(xiàn)實(shí)生活中真的有很難的題目后,會(huì)在設(shè)計(jì)完方法以后再看有沒(méi)有相關(guān)的工作做過(guò)了,這避免了我們的思路跟別人重復(fù)。再此我也建議大家,如果你有問(wèn)題的時(shí)候不要先去看別人怎么做的,很多學(xué)生喜歡這么想,看到一個(gè)題目馬上就去搜別人怎么做的,然后馬上跟著別人思路走進(jìn)去了,很難有創(chuàng)造性的思維。
?Q:對(duì)于希望進(jìn)入數(shù)據(jù)領(lǐng)域的工程師,分析師們,您希望他們加強(qiáng)哪方面的技能培養(yǎng)?
?第一,加強(qiáng)數(shù)據(jù)科學(xué)的基本技能培養(yǎng),包括數(shù)據(jù)管理、機(jī)器學(xué)習(xí)和可視化技術(shù)以及云計(jì)算平臺(tái)的使用。
?第二,加強(qiáng)對(duì)要解決問(wèn)題所在行業(yè)的了解,借助行業(yè)現(xiàn)有的知識(shí)來(lái)設(shè)計(jì)合理的數(shù)據(jù)模型,明確行業(yè)傳統(tǒng)方法為什么不行,并懂得跟行業(yè)專家有效溝通。
?第三,培養(yǎng)溝通和表達(dá)能力。現(xiàn)在的數(shù)據(jù)科學(xué)家不再是關(guān)起門來(lái)在家里閉門造車的工匠或者學(xué)者,他需要把深?yuàn)W的問(wèn)題和理論用最淺顯的語(yǔ)言講出來(lái),讓政府以及傳統(tǒng)行業(yè)的客戶能夠明白。
?最后,培養(yǎng)自己的創(chuàng)作力。很多時(shí)候客戶是提不出需求的,作為一個(gè)數(shù)據(jù)科學(xué)家要有超前的想象力和犀利的創(chuàng)造力。這點(diǎn)最難培養(yǎng),跟一個(gè)人的成長(zhǎng)經(jīng)歷有關(guān),甚至要從娃娃抓起。
?我正在為MIT Press撰寫一本《城市計(jì)算》的英文專著,里面涉及了數(shù)據(jù)科學(xué)家需要掌握的各種技能,以及實(shí)戰(zhàn)案例。該書將作為美國(guó)該專業(yè)的第一本教材,預(yù)計(jì)年底出版,有興趣的朋友可以關(guān)注?!?/p>
?作者 | 鄧旭川 魏子敏
責(zé)任編輯:陳近梅