來源:大數(shù)據(jù)文摘 時間:2018-08-03 15:06:18 作者:
數(shù)據(jù)科學家不是魔法師,當所需的數(shù)據(jù)不可得或者質(zhì)量很差的時候,數(shù)據(jù)科學家能做的很有限,這已經(jīng)超過了技術的范疇。企業(yè)管理者如果能從全局出發(fā)部署數(shù)據(jù)戰(zhàn)略,才能真正解決當下數(shù)據(jù)科學家的痛點,這樣數(shù)據(jù)科學家才能發(fā)揮作用解決公司的痛點。
大約在四年前,數(shù)據(jù)科學家成為了每個公司的必須雇的人。技術人員爭先恐后地甩掉在大學用的統(tǒng)計課本,花大量的時間重新學習Python Pandas和R,然后惡補最時髦的機器學習理論,再買幾件geek制服顯得更像那么回事。我就是其中一員。
如果你是做Hadoop開發(fā)的,這也是你的黃金時代。因為大家已經(jīng)達成了共識,不會map/reduce得數(shù)據(jù)科學家不是合格的數(shù)據(jù)科學家。伴隨著數(shù)據(jù)科學的熱潮,印度的程序員工廠推出了數(shù)以千計的Hadoop程序員和數(shù)據(jù)科學“專家”來迎接未來的“大事件”,一定程度上延長了瀕臨倒閉的Hadoop公司的壽命。
各大公司在第一時間都開始了對數(shù)據(jù)科學家的投入。每一家在納斯達克指數(shù)中占有一席之地的公司都向這些數(shù)據(jù)科學家支付了巨額薪水,他們認為數(shù)據(jù)的先知力量會讓他們挫敗競爭對手。
而各個銷售經(jīng)理和高層管理只要每天早上打開iPad就能實時看到公司具體運營情況。數(shù)據(jù)儀表圖成為了重要的地位象征,企業(yè)高管會獲得具有3D可視化和實時動畫散點圖的超級豪華儀表圖,而基層員工也會看到平面2D儀表盤,雖然沒有那么花哨,但也會得到必要的信息和簡要的摘要。
然而,這其實改變不了什么。那些數(shù)據(jù)科學家(大部分具有高學歷和多年工作經(jīng)驗,如在制藥或高級材料工程領域)將會很快意識到他們使用的數(shù)據(jù)質(zhì)量其實非常糟糕。
大家普遍認為企業(yè)中存在各個環(huán)節(jié)、部門的各式各樣的數(shù)據(jù)都是有用的,但是最后他們發(fā)現(xiàn)這些數(shù)據(jù)大部分是過時的,沒有固定格式的,只能夠為當時需要并收集這些數(shù)據(jù)的程序員所用。
大部分數(shù)據(jù)都是以電子表格形式儲存,在沒有監(jiān)管的情況下多次被修改,因此與真實數(shù)據(jù)有很大偏差。很多數(shù)據(jù)集沒有詳盡的文檔記錄,表格的表頭名稱意義不清,比如MFGRTL3QREVPRJ,不同表格之間也沒有一致的主鍵。換句話說,他們擁有的數(shù)據(jù)不適合做任何分析,更不要提針對藥物試驗的專業(yè)測試分析。
現(xiàn)在你拿著15萬美元的薪水來做可視化儀表圖,給那些根本不懂統(tǒng)計只想獲得百萬利潤和巨額提成的銷售經(jīng)理看。你的數(shù)據(jù)一團糟,根本沒法用。當你請求重建數(shù)據(jù)庫時,公司陷入了掙扎,這個項目要花上百萬,而他們認為沒有必要。現(xiàn)在你面臨一個選擇,其實你可以撒個謊,用計算機隨機產(chǎn)生數(shù)據(jù),然后得到一個很可能比目前數(shù)據(jù)更加準確的結果。但是這對于數(shù)據(jù)工作者是個難題,因為這違背了他們追求精準的初衷。那該怎么辦?
現(xiàn)在,我可以裝作一個語義分析傳道者,告訴你需要開發(fā)一個語義數(shù)據(jù)中心。實際上,這不是很難實現(xiàn),并且是有益處的,但它并不是什么神奇的魔法。語義數(shù)據(jù)可以比較容易轉化成可用的數(shù)據(jù)形式(如果沒有發(fā)現(xiàn)有用的數(shù)據(jù),也能發(fā)現(xiàn)并摒棄掉沒有的部分),但本質(zhì)上這不是數(shù)據(jù)科學問題——它是數(shù)據(jù)質(zhì)量和本體工程問題。
好了,對于那些高層決策者,當你遇到數(shù)據(jù)上的問題,你的數(shù)據(jù)科學家可以有“萬花筒”般的數(shù)據(jù)分析方法,但是沒有高質(zhì)量的數(shù)據(jù)做保證,得到的結果一點用都沒有。巧婦難為無米之炊,這不是數(shù)據(jù)科學家的問題,是你的問題,你天天盯著那些能給你賺千萬資金的可視化儀表盤,其實是看著你的錢從門前溜走。
在數(shù)據(jù)分析的項目中盡管你不是實際操作的人,但你的參與絕對不是可有可無,首先你需要明確你想要什么信息,然后花時間與數(shù)據(jù)科學家和業(yè)務人員一起確定需要收集什么數(shù)據(jù)。不要指望你想要的數(shù)據(jù)會奇跡般地從數(shù)據(jù)庫中出現(xiàn)。
再來談談數(shù)據(jù)庫。數(shù)據(jù)庫大多是為程序員所用,寫各種應用程序,它存在的首要目的不是為你的公司提供具有洞見的指導性意見。首先你要坐下來好好想想你已經(jīng)有什么資源,因為要從別人那里索要數(shù)據(jù)資源是非常被動的,特別是當這個數(shù)據(jù)獲得權涉及到別人的工作和職責范圍的時候。
再者,你要明白大多數(shù)數(shù)據(jù)庫都沒有詳盡的文檔記錄(有的甚至沒有文檔記錄),很多信息都需要從隱藏文獻中提取。這個過程被稱為推理計算,很多程序員不愿意做這個事情,因為這意味著他們需要從代碼去反推其他程序員的意圖,而別的程序員要么已經(jīng)離職了,要么能力有限,要么已經(jīng)忘了他們十年前寫的東西。
關系型的數(shù)據(jù)湖不能解決這個問題,數(shù)據(jù)湖唯一能夠解決的問題是讓計算機進程能夠訪問所有的數(shù)據(jù)。這是此類推理計算的必要部分,但它不是最難也不是最昂貴的部分。最昂貴的部分是弄清楚數(shù)據(jù)實際意義是什么,獲得不同的數(shù)據(jù)集甚至能夠識別出它們是關于同一件事的。這些問題都沒有現(xiàn)成的解決方案,需要靠摸索。
這里,我們再次提出語義的解決方案——圖形三重存儲,RDF,本體管理,查詢和所有內(nèi)容。它不是一個開箱即用的解決方案,但它是一種工具,可以使推理分析變得可行,并且可以把這個工具交給程序員來管理。
不過,你需要經(jīng)常對整個數(shù)據(jù)流的過程進行重新思考。你需要知道最開始從哪里獲得信息,然后讓信息盡早流入數(shù)據(jù)通道。這需要你的程序員和數(shù)據(jù)庫管理員放棄一定程度的自主權,在一個集中化的環(huán)境中工作。作為執(zhí)行人的你,應該更加熟悉數(shù)據(jù)治理的世界。
對于商業(yè)人士來說,這是一個相當激進的改變,不止一些人意識到他們要實際動手去解決IT問題。不過,如今的企業(yè)正在進行轉變(并且大部分已經(jīng)成功轉型),成為專業(yè)的數(shù)據(jù)管理公司,產(chǎn)品和服務更像是它們的副產(chǎn)品。
現(xiàn)今CEO的角色是在管理銷售的同時了解公司數(shù)據(jù)的輸入與輸出,確保他們的數(shù)據(jù)質(zhì)量是最好的。這不僅是為了合理的監(jiān)管,更因為數(shù)據(jù)的完整最終會決定他們是否能夠在市場競爭中脫穎而出。
企業(yè)領導者要多與數(shù)據(jù)團隊協(xié)作交流,來確定你需要知道什么,想要知道什么,什么東西是相關的,然后再來構建和你商業(yè)需求相關的數(shù)據(jù)收集過程。隨意從數(shù)據(jù)庫里提取一些信息來分析,只是徒增磁盤儲存的成本而已,雇傭數(shù)據(jù)科學家來分析垃圾數(shù)據(jù)只能得到垃圾的分析結果。結果呈現(xiàn)可能很漂亮,各種漸變梯度各種三維效果,然而卻毫無價值。(編譯:Hope、倪倪、夏雅薇)
相關報道:
http://www.21jieyan.cn
責任編輯:陳近梅