來源:大數(shù)據(jù)文摘 時間:2017-06-29 16:53:23 作者:錢天培
“我的工作有相當一部分時間是在出差的?!?/p>
這位剛剛畢業(yè)于哥倫比亞大學的90后、第四范式數(shù)據(jù)智能部最年輕的數(shù)據(jù)科學家胡時偉如是向記者描述他的工作狀態(tài)。
“我們會直接走入客戶公司,了解他們的運營模式,有點像咨詢。這也是我最喜歡第四范式的地方,給數(shù)據(jù)科學家的工作任務(wù)和美國那邊的定位很類似,偏應(yīng)用端,不會做太多R&D(研發(fā))的工作?!?/p>
環(huán)顧四周,裝修簡約的開放式辦公室,配上秋千椅、高腳桌,隨處可見免費小零食。走進第四范式,你會自然而然地聯(lián)想到“極客文化”、“工程師文化”,聯(lián)想到Facebook,Google等以人性化辦公著稱的科技公司。
而眼前這位數(shù)據(jù)科學的一番話,卻讓我們覺得,第四范式的數(shù)據(jù)科學家們似乎與我們傳統(tǒng)印象中以技術(shù)為主,常年坐辦公室調(diào)參、做研發(fā)的“科學家”有所不同。
你何時見過每個月都要出差幾次的“科學家”呢?
暴走的數(shù)據(jù)科學家與“消失”的研發(fā)團隊
“將來的數(shù)據(jù)科學家,應(yīng)該每個人都有一個助手,甚至是有一支龐大的軍隊。這個龐大的軍隊不吃糧草,只吃數(shù)據(jù),數(shù)據(jù)科學家負責攻城略地就好了?!?/p>
在與第四范式聯(lián)合創(chuàng)始人、首席架構(gòu)師胡時偉的訪談中,他進一步肯定了第四范式對數(shù)據(jù)科學家業(yè)務(wù)能力的重視。“對于我們的數(shù)據(jù)科學家,不僅要理解算法,更重要的是要求他們有對業(yè)務(wù)的理解能力和溝通能力,對業(yè)務(wù)有敏感度?!?/p>
在這家定位為“人工智能技術(shù)與服務(wù)提供商”的公司,胡時偉口中的數(shù)據(jù)科學家的時間與精力分配,與我們的固有認知存在較大差異。在過去,如果一個數(shù)據(jù)科學家一天工作8小時,那么可能有超過6個小時他是在做數(shù)據(jù)準備、模型調(diào)參等較為繁瑣的工作。而在第四范式,數(shù)據(jù)科學家每天這類工作可能只占用不到2個小時,剩下的大量時間都用在解決實際業(yè)務(wù)問題上。從6個小時到2個小時,當中似乎省掉了一整個研發(fā)團隊所需承擔的工作。
那么在第四范式,究竟是誰在負責數(shù)據(jù)準備、模型調(diào)參呢?
接手這個“消失”的研發(fā)團隊職責的,是第四范式自主研發(fā)的一個AI應(yīng)用者開發(fā)平臺--“第四范式·先知”平臺。
“傳統(tǒng)來講一個數(shù)據(jù)科學家,他需要一些編程的經(jīng)驗,需要一些系統(tǒng)的經(jīng)驗,需要一些數(shù)學的理論支持,同時還要會用一些工具對數(shù)據(jù)處理,然后是業(yè)務(wù)知識??v觀其整個工作中,大量繁重的工作其實與業(yè)務(wù)無關(guān)。我們創(chuàng)立第四范式的時候就發(fā)現(xiàn)了這個問題:跟業(yè)務(wù)無關(guān)的工作,其實是可以用產(chǎn)品的方式解決的?!?/p>
胡時偉所描述的現(xiàn)象可以被歸結(jié)為“進入數(shù)據(jù)科學的門檻太高”的問題。Google開發(fā)的Tensor flow已大大降低了機器學習的入門門檻,數(shù)據(jù)科學家們不再需要自行實現(xiàn)艱深復(fù)雜的機器學習深度學習算法。
“但Tensorflow主要是面向算法研究者,需要對數(shù)學與機器學習有比較深的理解、以及具備較強的編程能力?!钡谒姆妒较胍堰@個門檻放得再低一些——讓科學家只需要專注于解決業(yè)務(wù)問題,帶著這些功能封裝起來的“軍團”,跑到了業(yè)務(wù)第一線。
給業(yè)務(wù)高手配一個技術(shù)工具?還是給技術(shù)專家配一個業(yè)務(wù)顧問
給業(yè)務(wù)高手配一個技術(shù)工具?還是給技術(shù)專家配一個業(yè)務(wù)顧問?這是目前人工智能、數(shù)據(jù)科學領(lǐng)域一直在爭論的一個難題。
一方面,工程師背景較強的團隊往往會認為,技術(shù)能力,例如對機器學習算法的了解,是AI人才的關(guān)鍵技能,數(shù)據(jù)科學所需要的專業(yè)技能則能通過在與客戶的溝通中快速學習到;而另一方面,傳統(tǒng)上并非以工程師背景為人所知的團隊,例如城市規(guī)劃團隊,則認為業(yè)務(wù)知識需要多年的積累,而編程知識、算法知識則可以被快速獲得。
工程背景強悍的第四范式,選擇了給業(yè)務(wù)高手配一個AI平臺工具。胡時偉認為,給業(yè)務(wù)高手配一個技術(shù)工具不僅僅是第四范式的產(chǎn)品開發(fā)模式,也是未來實現(xiàn)“人人都成為數(shù)據(jù)科學家”的關(guān)鍵。
在先知的定位中,數(shù)據(jù)團隊及業(yè)務(wù)專家都是使用者。今年上半年,第四范式舉行了一場基于先知的建模比賽,參賽選手是離機器學習比較遠的行政、商務(wù)員工,兩周的培訓(xùn)之后有超過70%的參賽組合AUC成績(衡量模型效果的指標)超過0.8,達到成熟的數(shù)據(jù)科學家水平。
在胡時偉帶領(lǐng)的先知技術(shù)團隊的規(guī)劃中,這個門檻還將繼續(xù)降低?!拔覀兊脑妇笆恰瓵I foreveryone’,就是說讓大家都能夠用到這個新的(數(shù)據(jù)科學、人工智能領(lǐng)域的)技術(shù)。”
“算法和架構(gòu)的能力可以被產(chǎn)品化,而在業(yè)務(wù)能力上,AI不會消滅行業(yè)?!焙鷷r偉篤定地回答這個問題。他從“AI的五個先決條件”為我們解釋了他們所作選擇背后的原因。
他認為,企業(yè)實現(xiàn)AI化,需要滿足五大核心要素:
第一個是邊界清晰的問題定義。這個說的就是業(yè)務(wù)方向。這個特別重要,問題目標都錯了,你跑一百米、一千米,也達不到你的目標。
第二個是高質(zhì)量、有意義的過程數(shù)據(jù)。這個其實也是跟業(yè)務(wù)有關(guān)系的,這回答的是最重要的一個問題:我該收集什么數(shù)據(jù)?那這個問題的答案肯定是從業(yè)務(wù)來,不是從算法來的。
第三個是持續(xù)不斷的反饋。胡時偉指出,光有過程數(shù)據(jù)是遠不夠的。以下圍棋為例,光知道棋譜,不知道最后誰贏誰輸,是學不會圍棋的。
除此之外,還需要有算法能力和高性能的計算能力。在機器學習的實際業(yè)務(wù)場景中,動輒數(shù)十億級別的數(shù)據(jù)樣本,給計算框架帶來嚴峻考驗,在這樣的數(shù)據(jù)規(guī)模上即便是簡單的邏輯回歸模型,也會變成一個非常困難的問題,因此企業(yè)在計算能力上的投入將是巨大的。
胡時偉指出,算法能力和高性能的計算能力這兩個技術(shù)問題,是會隨著高性能的機器學習平臺的普及和硬件的提升而逐步解決的。而前面的三個問題,是業(yè)務(wù)問題、社會問題,是需要人去解決的。
公司從數(shù)據(jù)化到AI化的轉(zhuǎn)變?yōu)闀r過早嗎?
目前,很多傳統(tǒng)企業(yè)已開始考慮向AI化轉(zhuǎn)型,但事實上它們中的很多仍然處在公司運營數(shù)據(jù)化初級階段,這些公司普遍有這樣的疑惑:現(xiàn)在考慮AI化是否為時過早?而企業(yè)AI化又該走哪條路?該將業(yè)務(wù)外包給AI咨詢公司?求助第三方AI平臺?還是自己開發(fā)一套AI平臺?
在胡時偉看來,企業(yè)現(xiàn)在考慮AI化絕不算早,實現(xiàn)AI化所需要的數(shù)據(jù)要從現(xiàn)在開始攢起。大多數(shù)公司不像百度、google這種互聯(lián)網(wǎng)公司,擁有充足的數(shù)據(jù)積累。在更多的公司、更多的場景中,AI并不是想開始就能開始的?!拔磥淼钠髽I(yè)競爭相當程度上是數(shù)據(jù)資產(chǎn)的競爭,兵馬未動糧草先行,盡早解決數(shù)據(jù)的問題,這并不是操之過急、而是勢在必行的事情?!?/p>
而關(guān)于三種不同的公司AI化方案,胡時偉認為,這其實是同一種AI化方案的三個步驟。
“單純的咨詢公司往往不具備核心的產(chǎn)品能力,即使是能夠給出正確的思路,企業(yè)也無法能夠真正得到效果?!?/p>
胡時偉認為,企業(yè)老板通過咨詢或是學習的方式能對AI有一個正確的認識?!拔矣X得一個企業(yè)的經(jīng)營者、決策者是對這個企業(yè)業(yè)務(wù)的提升最了解的人,他自己先要成為一個機器學習應(yīng)用方面的行家,但是他不用成為算法專家。他要知道業(yè)務(wù)在新的時代下,在高維對高維的直接反饋的情況下,會變成什么樣子,這個是很重要的?!?/p>
在樹立了對AI的正確觀念與期望之后,攢夠了AI化所需的數(shù)據(jù)之后,企業(yè)可以選擇進一步組建起自己的數(shù)據(jù)團隊,或者通過第三方平臺實現(xiàn)AI化。
而至于自建平臺,胡時偉則認為并不適用大多數(shù)想要實現(xiàn)AI化的公司?!霸跊]有機器學習平臺之前,一些有資源儲備的大公司會自建平臺。但其實到了現(xiàn)在這個階段,隨著第三方平臺的成熟,公司可以引入平臺、以比較合理的投入高效獲得AI帶來的收益,何樂而不為呢?”
給AI行業(yè)的新人的建議:找到這個行業(yè)真正的金子
“不著急,不跟風;最關(guān)鍵的還是要說怎么能去解決實際的問題”
胡時偉也給想進入AI行業(yè),或是初步進入AI行業(yè)的新人提了幾個建議。
對于學生來說,沒有那么多的機會接觸到實際應(yīng)用,那么就要把AI的方法論搞清楚。“不著急,不跟風。要知道機器學習為什么產(chǎn)生效果,而不是說我下載一個代碼覺得產(chǎn)生效果了,就覺得可以了?!?/p>
對于AI從業(yè)者來說,一定要關(guān)注目標導(dǎo)向。在問題定位清楚、提升空間分析完備之前,最好不要就全身心投入到模型調(diào)試的工作中去。前期要更多的關(guān)心這個模型是不是能解決企業(yè)的實際問題,或者是企業(yè)解決該問題的數(shù)據(jù)完備程度是否達到等。
“對于企業(yè)來說,目標導(dǎo)向就是你不需要去了解機器背后使用了什么算法、架構(gòu),就能享受到大數(shù)據(jù)驅(qū)動所帶來的價值提升?!焙鷷r偉如是說。
?
責任編輯:陳近梅