純干貨丨數(shù)據(jù)科學(xué)家成長(zhǎng)指南（中）

來(lái)源：秦路時(shí)間：2017-02-09 11:03:11 作者：

　　在《數(shù)據(jù)科學(xué)家成長(zhǎng)指南(上) 》中已經(jīng)介紹了基礎(chǔ)原理、統(tǒng)計(jì)學(xué)、編程能力和機(jī)器學(xué)習(xí)的要點(diǎn)大綱，本文更新后續(xù)的第五、六、七條線路：自然語(yǔ)言處理、數(shù)據(jù)可視化、大數(shù)據(jù)。

　　準(zhǔn)備好在新的一年，學(xué)習(xí)成為未來(lái)五年最性感的職位么。

　　——————

　　Text Mining / NLP

　　文本挖掘，自然語(yǔ)言處理。這是一個(gè)橫跨人類學(xué)、語(yǔ)言學(xué)的交叉領(lǐng)域。中文的自然語(yǔ)言處理更有難度，這是漢語(yǔ)語(yǔ)法特性決定的，英文是一詞單詞為最小元素，有空格區(qū)分，中文則是字，且是連續(xù)的。這就需要中文在分詞的基礎(chǔ)上再進(jìn)行自然語(yǔ)言處理。中文分詞質(zhì)量決定了后續(xù)好壞。

　　Corpus

　　語(yǔ)料庫(kù)

　　它指大規(guī)模的電子文本庫(kù)，它是自然語(yǔ)言的基礎(chǔ)。語(yǔ)料庫(kù)沒有固定的類型，文獻(xiàn)、小說(shuō)、新聞都可以是語(yǔ)料，主要取決于目的。語(yǔ)料庫(kù)應(yīng)該考慮多個(gè)文體間的平衡，即新聞應(yīng)該包含各題材新聞。

　　語(yǔ)料庫(kù)是需要加工的，不是隨便網(wǎng)上下載個(gè)txt就是語(yǔ)料庫(kù)，它必須處理，包含語(yǔ)言學(xué)標(biāo)注，詞性標(biāo)注、命名實(shí)體、句法結(jié)構(gòu)等。英文語(yǔ)料庫(kù)比較成熟，中文語(yǔ)料還在發(fā)展中。

　　NLTK-Data

　　自然語(yǔ)言工具包

　　NLTK創(chuàng)立于2001年，通過(guò)不斷發(fā)展，已經(jīng)成為最好的英語(yǔ)語(yǔ)言工具包之一。內(nèi)含多個(gè)重要模塊和豐富的語(yǔ)料庫(kù)，比如nltk.corpus 和 nltk.utilities。Python的NLTK和R的TM是主流的英文工具包，它們也能用于中文，必須先分詞。中文也有不少處理包：TextRank、Jieba、HanLP、FudanNLP、NLPIR等。

　　Named Entity Recognition

　　命名實(shí)體識(shí)別

　　它是確切的名詞短語(yǔ)，如組織、人、時(shí)間，地區(qū)等等。命名實(shí)體識(shí)別則是識(shí)別所有文字中的命名實(shí)體，是自然語(yǔ)言處理領(lǐng)域的重要基礎(chǔ)工具。

　　命名實(shí)體有兩個(gè)需要完成的步驟，一是確定命名實(shí)體的邊界，二是確定類型。漢字的實(shí)體識(shí)別比較困難，比如南京市長(zhǎng)江大橋，會(huì)產(chǎn)生南京 | 市長(zhǎng) | 江大橋、南京市 | 長(zhǎng)江大橋兩種結(jié)果，這就是分詞的任務(wù)。確定類型則是明確這個(gè)實(shí)體是地區(qū)、時(shí)間、或者其他?？梢岳斫獬晌淖职娴臄?shù)據(jù)類型。

　　命名實(shí)體主要有兩類方法，基于規(guī)則和詞典的方法，以及基于機(jī)器學(xué)習(xí)的方法。規(guī)則主要以詞典正確切分出實(shí)體，機(jī)器學(xué)習(xí)主要以隱馬爾可夫模型、最大熵模型和條件隨機(jī)域?yàn)橹鳌?/p>

　　Text Analysis

　　文本分析

　　這是一個(gè)比較大的交叉領(lǐng)域。以語(yǔ)言學(xué)研究的角度看，文本分析包括語(yǔ)法分析和語(yǔ)義分析，后者現(xiàn)階段進(jìn)展比較緩慢。語(yǔ)法分析以正確構(gòu)建出動(dòng)詞、名詞、介詞等組成的語(yǔ)法樹為主要目的。

　　如果不深入研究領(lǐng)域、則有文本相似度、預(yù)測(cè)單詞、困惑值等分析，這是比較成熟的應(yīng)用。

　　UIMA

　　UIMA 是一個(gè)用于分析非結(jié)構(gòu)化內(nèi)容（比如文本、視頻和音頻）的組件架構(gòu)和軟件框架實(shí)現(xiàn)。這個(gè)框架的目的是為非結(jié)構(gòu)化分析提供一個(gè)通用的平臺(tái)，從而提供能夠減少重復(fù)開發(fā)的可重用分析組件。

　　Term Document Matrix

　　詞-文檔矩陣

　　它是一個(gè)二維矩陣，行是詞，列是文檔，它記錄的是所以單詞在所有文檔中出現(xiàn)頻率。所以它是一個(gè)高維且稀疏的矩陣。

　　這個(gè)矩陣是TF-IDF（term frequency–inverse document frequency）算法的基礎(chǔ)。TF指代的詞在文檔中出現(xiàn)的頻率，描述的是詞語(yǔ)在該文檔的重要數(shù)，IDF是逆向文件頻率，描述的是單詞在所有文檔中的重要數(shù)。我們認(rèn)為，在所有文檔中都出現(xiàn)的詞肯定是的、你好、是不是這類常用詞，重要性不高，而越稀少的詞越重要。故由總文檔數(shù)除以包含該詞的文檔數(shù)，然后取對(duì)數(shù)獲得。

　　詞-文檔矩陣可以用矩陣的方法快速計(jì)算TF-IDF。

　　它的變種形式是Document Term Matrix，行列顛倒。

　　Term Frequency &Weight

　　詞頻和權(quán)重

　　詞頻即詞語(yǔ)在文檔中出現(xiàn)的次數(shù)，這里的文檔可以認(rèn)為是一篇新聞、一份文本，甚至是一段對(duì)話。詞頻表示了詞語(yǔ)的重要程度，一般這個(gè)詞出現(xiàn)的越多，我們可以認(rèn)為它越重要，但也有可能遇到很多無(wú)用詞，比如的、地、得等。這些是停用詞，應(yīng)該刪除。另外一部分是日常用語(yǔ)，你好，謝謝，對(duì)文本分析沒有幫助，為了區(qū)分出它們，我們?cè)偌尤霗?quán)重。

　　權(quán)重代表了詞語(yǔ)的重要程度，像你好、謝謝這種，我們認(rèn)為它的權(quán)重是很低，幾乎沒有任何價(jià)值。權(quán)重既能人工打分，也能通過(guò)計(jì)算獲得。通常，專業(yè)類詞匯我們會(huì)給予更高的權(quán)重，常用詞則低權(quán)重。

　　通過(guò)詞頻和權(quán)重，我們能提取出代表這份文本的特征詞，經(jīng)典算法為TF-IDF。

　　Support Vector Machines

　　支持向量機(jī)

　　它是一種二類分類模型，有別于感知機(jī)，它是求間隔最大的線性分類。當(dāng)使用核函數(shù)時(shí)，它也可以作為非線性分類器。

　　它可以細(xì)分為線性可分支持向量機(jī)、線性支持向量機(jī)，非線性支持向量機(jī)。

　　非線性問(wèn)題不太好求解，圖左就是將非線性的特征空間映射到新空間，將其轉(zhuǎn)換成線性分類。說(shuō)的通俗點(diǎn)，就是利用核函數(shù)將左圖特征空間（歐式或離散集合）的超曲面轉(zhuǎn)換成右圖特征空間（希爾伯特空間）中的的超平面。

　　常用核函數(shù)有多項(xiàng)式核函數(shù)，高斯核函數(shù)，字符串核函數(shù)。

　　字符串核函數(shù)用于文本分類、信息檢索等，SVM在高維的文本分類中表現(xiàn)較好，這也是出現(xiàn)在自然語(yǔ)言處理路徑上的原因。

　　Association Rules

　　關(guān)聯(lián)規(guī)則

　　它用來(lái)挖掘數(shù)據(jù)背后存在的信息，最知名的例子就是啤酒與尿布了，雖然它是虛構(gòu)的。但我們可以理解它蘊(yùn)含的意思：買了尿布的人更有可能購(gòu)買啤酒。

　　它是形如X→Y的蘊(yùn)涵式，是一種單向的規(guī)則，即買了尿布的人更有可能購(gòu)買啤酒，但是買了啤酒的人未必會(huì)買尿布。我們?cè)谝?guī)則中引入了支持度和置信度來(lái)解釋這種單向。支持度表明這條規(guī)則的在整體中發(fā)生的可能性大小，如果買尿布啤酒的人少，那么支持度就小。置信度表示從X推導(dǎo)Y的可信度大小，即是否真的買了尿布的人會(huì)買啤酒。

　　關(guān)聯(lián)規(guī)則的核心就是找出頻繁項(xiàng)目集，Apriori算法就是其中的典型。頻繁項(xiàng)目集是通過(guò)遍歷迭代求解的，時(shí)間復(fù)雜度很高，大型數(shù)據(jù)集的表現(xiàn)不好。

　　關(guān)聯(lián)規(guī)則和協(xié)同過(guò)濾一樣，都是相似性的求解，區(qū)分是協(xié)同過(guò)濾找的是相似的人，將人劃分群體做個(gè)性化推薦，而關(guān)聯(lián)規(guī)則沒有過(guò)濾的概念，是針對(duì)整體的，與個(gè)人偏好無(wú)關(guān)，計(jì)算出的結(jié)果是針對(duì)所有人。

　　Market Based Analysis

　　購(gòu)物籃分析，實(shí)際是Market Basket Analysis，作者筆誤。

　　傳統(tǒng)零售業(yè)中，購(gòu)物籃指的是消費(fèi)者一次性購(gòu)買的商品，收營(yíng)條上的單子數(shù)據(jù)都會(huì)被記錄下來(lái)以供分析。更優(yōu)秀的購(gòu)物籃分析，還會(huì)用紅外射頻記錄商品的擺放，顧客在超市的移動(dòng)，人流量等數(shù)據(jù)。

　　關(guān)聯(lián)規(guī)則是購(gòu)物籃分析的主要應(yīng)用，但還包括促銷打折對(duì)銷售量的影響、會(huì)員制度積分制度的分析、回頭客和新客的分析。

　　Feature Extraction

　　特征提取

　　它是特征工程的重要概念。數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限，而模型和算法只是逼近這個(gè)上限而已。而很多模型都會(huì)遇到維數(shù)災(zāi)難，即維度太多，這對(duì)性能瓶頸造成了考驗(yàn)。常見文本、圖像、聲音這些領(lǐng)域。

　　為了解決這一問(wèn)題，我們需要進(jìn)行特征提取，將原始特征轉(zhuǎn)換成最有重要性的特征。像指紋識(shí)別、筆跡識(shí)別，這些都是有實(shí)體有跡可循的，而表情識(shí)別等則是比較抽象的概念。這也是特征提取的挑戰(zhàn)。

　　不同模式下的特征提取方法不一樣，文本的特征提取有TF-IDF、信息增益等，線性特征提取包括PCA、LDA，非線性特征提取包括核Kernel。

　　Using Mahout

　　使用Mahout

　　Mahout是Hadoop中的機(jī)器學(xué)習(xí)分布式框架，中文名驅(qū)象人。

　　Mahout包含了三個(gè)主題：推薦系統(tǒng)、聚類和分類。分別對(duì)應(yīng)不同的場(chǎng)景。

　　Mahout在Hadoop平臺(tái)上，借助MR計(jì)算框架，可以簡(jiǎn)便化的處理不少數(shù)據(jù)挖掘任務(wù)。實(shí)際Mahout已經(jīng)不再維護(hù)新的MR，還是投向了Spark，與Mlib互為補(bǔ)充。

　　Using Weka

　　Weka是一款免費(fèi)的，基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。

　　Using NLTK

　　使用自然語(yǔ)言工具包

　　Classify Text

　　文本分類

　　將文本集進(jìn)行分類，與其他分類算法沒有本質(zhì)區(qū)別。假如現(xiàn)在要將商品的評(píng)論進(jìn)行正負(fù)情感分類，首先分詞后要將文本特征化，因?yàn)槲谋颈厝皇歉呔S，我們不可能選擇所有的詞語(yǔ)作為特征，而是應(yīng)該以最能代表該文本的詞作為特征，例如只在正情感中出現(xiàn)的詞：特別棒，很好，完美。計(jì)算出卡方檢驗(yàn)值或信息增益值，用排名靠前的單詞作為特征。

　　所以評(píng)論的文本特征就是[word11,word12,……]，[word21,word22,……]，轉(zhuǎn)換成高維的稀疏矩陣，之后則是選取最適合的算法了。

　　垃圾郵件、反黃鑒別、文章分類等都屬于這個(gè)應(yīng)用。

　　Vocabulary Mapping

　　詞匯映射

　　NLP有一個(gè)重要的概念，本體和實(shí)體，本體是一個(gè)類，實(shí)體是一個(gè)實(shí)例。比如手機(jī)就是本體、iPhone和小米是實(shí)體，它們共同構(gòu)成了知識(shí)庫(kù)。很多文字是一詞多意或者多詞一意，比如蘋果既可以是手機(jī)也可以是水果，iPhone則同時(shí)有水果機(jī)、蘋果機(jī)、iPhone34567的諸多叫法。計(jì)算機(jī)是無(wú)法理解這么復(fù)雜的含義。詞匯映射就是將幾個(gè)概念相近的詞匯統(tǒng)一成一個(gè)，讓計(jì)算機(jī)和人的認(rèn)知沒有區(qū)別。

　　——————

　　Visualization數(shù)據(jù)可視化

　　這是難度較低的環(huán)節(jié)，統(tǒng)計(jì)學(xué)或者大數(shù)據(jù)，都是不斷發(fā)展演變，是屬于終身學(xué)習(xí)的知識(shí)，而可視化只要了解掌握，可以受用很多年。這里并不包括可視化的編程環(huán)節(jié)。

　　Uni, Bi &Multivariate Viz

　　單/雙/多變量

　　在數(shù)據(jù)可視化中，我們通過(guò)不同的變量／維度組合，可以作出不同的可視化成果。單變量、雙變量和多變量有不同作圖方式。

　　ggplot2

　　R語(yǔ)言的一個(gè)經(jīng)典可視化包

　　ggoplot2的核心邏輯是按圖層作圖，每一個(gè)語(yǔ)句都代表了一個(gè)圖層。以此將各繪圖元素分離。

　　ggplot(...) +

　　geom(...) +

　　stat(...) +

　　annotate(...) +

　　scale(...)

　　上圖就是典型的ggplot2函數(shù)風(fēng)格。plot是整體圖表，geom是繪圖函數(shù)，stat是統(tǒng)計(jì)函數(shù)，annotate是注釋函數(shù)，scale是標(biāo)尺函數(shù)。ggplot的繪圖風(fēng)格是灰底白格。

　　ggplot2的缺點(diǎn)是繪圖比較緩慢，畢竟是以圖層的方式，但是瑕不掩瑜，它依舊是很多人使用R的理由。

　　Histogram &Pie(Uni)

　　直方圖和餅圖（單變量）

　　直方圖已經(jīng)介紹過(guò)了，這里就放張圖。

　　餅圖不是常用的圖形，若變量之間的差別不大，如35%和40%，在餅圖的面積比例靠肉眼是分辨不出來(lái)。

　　Tree &Tree Map

　　樹圖和矩形樹圖

　　樹圖代表的是一種結(jié)構(gòu)。層次聚類的實(shí)例圖就屬于樹圖。

　　當(dāng)維度的變量多大，又需要對(duì)比時(shí)，可以使用矩形樹圖。通過(guò)面積表示變量的大小，顏色表示類目。

　　Scatter Plot (Bi)

　　散點(diǎn)圖（雙變量）

　　散點(diǎn)圖在數(shù)據(jù)探索中經(jīng)常用到，用以分析兩個(gè)變量之間的關(guān)系，也可以用于回歸、分類的探索。

　　利用散點(diǎn)圖矩陣，則能將雙變量拓展為多變量。

　　Line Charts (Bi)

　　折線圖（雙變量）

　　它常用于描繪趨勢(shì)和變化，和時(shí)間維度是好基友，如影隨形。

　　Spatial Charts

　　空間圖，應(yīng)該就是地圖的意思

　　一切涉及到空間屬性的數(shù)據(jù)都能使用地理圖。地理圖需要表示坐標(biāo)的數(shù)據(jù)，可以是經(jīng)緯度、也可以是地理實(shí)體，比如上海市北京市。經(jīng)緯度的數(shù)據(jù)，常常和POI掛鉤。

　　Survey Plot

　　不知道具體的含義，粗略翻譯圖形探索

　　plot是R中最常用的函數(shù)，通過(guò)plot（x，y），我們可以設(shè)定不同的參數(shù)，決定使用那種圖形。

　　Timeline

　　時(shí)間軸

　　當(dāng)數(shù)據(jù)涉及到時(shí)間，或者存在先后順序，我們可以使用時(shí)間軸。不少可視化框架，也支持以時(shí)間播放的形式描述數(shù)據(jù)的變化。

　　Decision Tree

　　決策樹

　　這里的決策樹不是算法，而是基于解釋性好的一個(gè)應(yīng)用。

　　當(dāng)數(shù)據(jù)遇到是否，或者選擇的邏輯判斷時(shí)，決策樹不失為一種可視化思路。

　　D3.js

　　知名的數(shù)據(jù)可視化前端框架

　　d3可以制作復(fù)雜的圖形，像直方圖散點(diǎn)圖這類，用其他框架完成比較好，學(xué)習(xí)成本比前者低。

　　d3是基于svg的，當(dāng)數(shù)據(jù)量變大運(yùn)算復(fù)雜后，d3性能會(huì)變差。而canvas的性能會(huì)好不少，國(guó)內(nèi)的echarts基于后者。有中文文檔，屬于比較友好的框架。

　　R語(yǔ)言中有一個(gè)叫d3NetWork的包，Python則有d3py的包，當(dāng)然直接搭建環(huán)境也行。

　　IBM ManyEyes

　　Many Eyes是IBM公司的一款在線可視化處理工具。該工具可以對(duì)數(shù)字，文本等進(jìn)行可視化處理。應(yīng)該是免費(fèi)的。圖網(wǎng)上隨便找的。

　　Tableau

　　國(guó)外知名的商用BI，分為Desktop和Server，前者是數(shù)據(jù)分析單機(jī)版，后者支持私有化部署。加起來(lái)得幾千美金，挺貴的。圖網(wǎng)上隨便找的。

　　——————

　　Big Data 大數(shù)據(jù)

　　越來(lái)越火爆的技術(shù)概念，Hadoop還沒有興起幾年，第二代Spark已經(jīng)后來(lái)居上。因?yàn)樽髡邔懙谋容^早，現(xiàn)在的新技術(shù)沒有過(guò)多涉及。部分工具我不熟悉，就略過(guò)了。

　　Map Reduce Fundamentals

　　MapReduce框架

　　它是Hadoop核心概念。它通過(guò)將計(jì)算任務(wù)分割成多個(gè)處理單元分散到各個(gè)服務(wù)器進(jìn)行。

　　MapReduce有一個(gè)很棒的解釋，如果你要計(jì)算一副牌的數(shù)量，傳統(tǒng)的處理方法是找一個(gè)人數(shù)。而MapReduce則是找來(lái)一群人，每個(gè)人數(shù)其中的一部分，最終將結(jié)果匯總。分配給每個(gè)人數(shù)的過(guò)程是Map，處理匯總結(jié)果的過(guò)程是Reduce。

　　Hadoop Components

　　Hadoop組件

　　Hadoo號(hào)稱生態(tài)，它就是由無(wú)數(shù)組建拼接起來(lái)的。

　　各類組件包括HDFS、MapReduce、Hive、HBase、Zookeeper、Sqoop、Pig、Mahout、Flume等。最核心的就是HDFS和MapReduce了。

　　HDFS

　　Hadoop的分布式文件系統(tǒng)

　　HDFS的設(shè)計(jì)思路是一次讀取，多次訪問(wèn)，屬于流式數(shù)據(jù)訪問(wèn)。HDFS的數(shù)據(jù)塊默認(rèn)64MB（Hadoop 2.X 變成了128MB），并且以64MB為單位分割，塊的大小遵循摩爾定理。它和MR息息相關(guān)，通常來(lái)說(shuō)，Map Task的數(shù)量就是塊的數(shù)量。64MB的文件為1個(gè)Map，65MB（64MB+1MB）為2個(gè)Map。

　　Data Replication Principles

　　數(shù)據(jù)復(fù)制原理

　　數(shù)據(jù)復(fù)制屬于分布式計(jì)算的范疇，它并不僅僅局限于數(shù)據(jù)庫(kù)。

　　Hadoop和單個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的差別在于原子性和一致性。在原子性方面，要求分布式系統(tǒng)的所有操作在所有相關(guān)副本上要么提交，要么回滾，即除了保證原有的局部事務(wù)的原子性，還需要控制全局事務(wù)的原子性；在一致性方面，多副本之間需要保證單一副本一致性。

　　Hadoop數(shù)據(jù)塊將會(huì)被復(fù)制到多態(tài)服務(wù)器上以確保數(shù)據(jù)不會(huì)丟失。

　　Setup Hadoop (IBM/Cloudera/HortonWorks)

　　安裝Hadoop

　　包括社區(qū)版、商業(yè)發(fā)行版、以及各種云。

　　Name &Data Nodes

　　名稱和數(shù)據(jù)節(jié)點(diǎn)

　　HDFS通信分為兩部分，Client和NameNode &DataNode。

　　NameNode：管理HDFS的名稱空間和數(shù)據(jù)塊映射信息，處理client。NameNode有一個(gè)助手叫Secondary NameNode，負(fù)責(zé)鏡像備份和日志合并，負(fù)擔(dān)工作負(fù)載、提高容錯(cuò)性，誤刪數(shù)據(jù)的話這里也能恢復(fù)，當(dāng)然更建議加trash。

　　DataNode：真正的數(shù)據(jù)節(jié)點(diǎn)，存儲(chǔ)實(shí)際的數(shù)據(jù)。會(huì)和NameNode之間維持心跳。

　　Job &Task Tracker

　　任務(wù)跟蹤

　　JobTracker負(fù)責(zé)管理所有作業(yè)，講作業(yè)分隔成一系列任務(wù)，然而講任務(wù)指派給TaskTracker。你可以把它想象成經(jīng)理。

　　TaskTracker負(fù)責(zé)運(yùn)行Map任務(wù)和Reduce任務(wù)，當(dāng)接收到JobTracker任務(wù)后干活、執(zhí)行、之后匯報(bào)任務(wù)狀態(tài)。你可以把它想象成員工。一臺(tái)服務(wù)器就是一個(gè)員工。

　　M/R Programming

　　Map/Reduce編程

　　MR的編程依賴JobTracker和TaskTracker。TaskTracker管理著Map和Reduce兩個(gè)類。我們可以把它想象成兩個(gè)函數(shù)。

　　MapTask引擎會(huì)將數(shù)據(jù)輸入給程序員編寫好的Map( )函數(shù)，之后輸出數(shù)據(jù)寫入內(nèi)存／磁盤，ReduceTask引擎將Map( )函數(shù)的輸出數(shù)據(jù)合并排序后作為自己的輸入數(shù)據(jù)，傳遞給reduce( )，轉(zhuǎn)換成新的輸出。然后獲得結(jié)果。

　　網(wǎng)絡(luò)上很多案例都通過(guò)統(tǒng)計(jì)詞頻解釋MR編程：

　　原始數(shù)據(jù)集分割后，Map函數(shù)對(duì)數(shù)據(jù)集的元素進(jìn)行操作，生成鍵-值對(duì)形式中間結(jié)果，這里就是{“word”,counts}，Reduce函數(shù)對(duì)鍵-值對(duì)形式進(jìn)行計(jì)算，得到最終的結(jié)果。

　　Hadoop的核心思想是MapReduce，MapReduce的核心思想是shuffle。shuffle在中間起了什么作用呢？shuffle的意思是洗牌，在MR框架中，它代表的是把一組無(wú)規(guī)則的數(shù)據(jù)盡量轉(zhuǎn)換成一組具有一定規(guī)則的數(shù)據(jù)。

　　前面說(shuō)過(guò)，map函數(shù)會(huì)將結(jié)果寫入到內(nèi)存，如果集群的任務(wù)有很多，損耗會(huì)非常厲害，shuffle就是減少這種損耗的。圖例中我們看到，map輸出了結(jié)果，此時(shí)放在緩存中，如果緩存不夠，會(huì)寫入到磁盤成為溢寫文件，為了性能考慮，系統(tǒng)會(huì)把多個(gè)key合并在一起，類似merge/group，圖例的合并就是{"Bear",[1,1]},{"Car",[1,1,1]}，然后求和，等Map任務(wù)執(zhí)行完成，Reduce任務(wù)就直接讀取文件了。

　　另外，它也是造成數(shù)據(jù)傾斜的原因，就是某一個(gè)key的數(shù)量特別多，導(dǎo)致任務(wù)計(jì)算耗時(shí)過(guò)長(zhǎng)。

　　Sqoop: Loading Data in HDFS

　　Sqoop是一個(gè)工具，用來(lái)將傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)導(dǎo)入到Hadoop中。雖然Hadoop支持各種各樣的數(shù)據(jù)，但它依舊需要和外部數(shù)據(jù)進(jìn)行交互。

　　Sqoop支持關(guān)系型數(shù)據(jù)庫(kù)，MySQL和PostgreSQL經(jīng)過(guò)了優(yōu)化。如果要連其他數(shù)據(jù)庫(kù)例如NoSQL，需要另外下載連接器。導(dǎo)入時(shí)需要注意數(shù)據(jù)一致性。

　　Sqoop也支持導(dǎo)出，但是SQL有多種數(shù)據(jù)類型，例如String對(duì)應(yīng)的CHAR（64）和VARCHAR（200）等，必須確定這個(gè)類型可不可以使用。

　　Flue, Scribe: For Unstruct Data

　　2種日志相關(guān)的系統(tǒng)，為了處理非結(jié)構(gòu)化數(shù)據(jù)。

　　SQL with Pig

　　利用Pig語(yǔ)言來(lái)進(jìn)行SQL操作。

　　Pig是一種探索大規(guī)模數(shù)據(jù)集的腳本語(yǔ)言，Pig是接近腳本方式去描述MapReduce。它和Hive的區(qū)別是，Pig用腳本語(yǔ)言解釋MR，Hive用SQL解釋MR。

　　它支持我們對(duì)加載出來(lái)的數(shù)據(jù)進(jìn)行排序、過(guò)濾、求和、分組(group by)、關(guān)聯(lián)(Joining)。并且支持自定義函數(shù)（UDF），它比Hive最大的優(yōu)勢(shì)在于靈活和速度。當(dāng)查詢邏輯非常復(fù)雜的時(shí)候，Hive的速度會(huì)很慢，甚至無(wú)法寫出來(lái)，那么Pig就有用武之地了。

　　DWH with Hive

　　利用Hive來(lái)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)

　　Hive提供了一種查詢語(yǔ)言，因?yàn)閭鹘y(tǒng)數(shù)據(jù)庫(kù)的SQL用戶遷移到Hadoop，讓他們學(xué)習(xí)底層的MR API是不可能的，所以Hive出現(xiàn)了，幫助SQL用戶們完成查詢?nèi)蝿?wù)。

　　Hive很適合做數(shù)據(jù)倉(cāng)庫(kù)，它的特性適用于靜態(tài)，SQL中的Insert、Update、Del等記錄操作不適用于Hive。

　　它還有一個(gè)缺點(diǎn)，Hive查詢有延時(shí)，因?yàn)樗脝?dòng)MR，這個(gè)時(shí)間消耗不少。傳統(tǒng)SQL數(shù)據(jù)庫(kù)簡(jiǎn)單查詢幾秒內(nèi)就能完成，Hive可能會(huì)花費(fèi)一分鐘。只有數(shù)據(jù)集足夠大，那么啟動(dòng)耗費(fèi)的時(shí)間就忽略不計(jì)。

　　故Hive適用的場(chǎng)景是每天凌晨跑當(dāng)天數(shù)據(jù)等等。它是類SQL語(yǔ)言，數(shù)據(jù)分析師能直接用，產(chǎn)品經(jīng)理能直接用，拎出一個(gè)大學(xué)生培訓(xùn)幾天也能用。效率快。

　　可以將Hive作通用查詢，而用Pig定制UDF，做各種復(fù)雜分析。Hive和MySQL語(yǔ)法最接近。

　　Scribe, Chukwa For Weblog

　　Scribe是Facebook開源的日志收集系統(tǒng)，在Facebook內(nèi)部已經(jīng)得到的應(yīng)用。

　　Chukwa是一個(gè)開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)。

　　Using Mahout

　　已經(jīng)介紹過(guò)了

　　Zookeeper Avro

　　Zookeeper，是Hadoop的一個(gè)重要組件，它被設(shè)計(jì)用來(lái)做協(xié)調(diào)服務(wù)的。主要是用來(lái)解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問(wèn)題，如：統(tǒng)一命名服務(wù)、狀態(tài)同步服務(wù)、集群管理、分布式應(yīng)用配置項(xiàng)的管理等。

　　Avro是Hadoop中的一個(gè)子項(xiàng)目，它是一個(gè)基于二進(jìn)制數(shù)據(jù)傳輸高性能的中間件。除外還有Kryo、protobuf等。

　　Storm: Hadoop Realtime

　　Storm是最新的一個(gè)開源框架

　　目的是大數(shù)據(jù)流的實(shí)時(shí)處理。它的特點(diǎn)是流，Hadoop的數(shù)據(jù)查詢，優(yōu)化的再好，也要基于HDFS進(jìn)行MR查詢，有沒有更快的方法呢？是有的。就是在數(shù)據(jù)產(chǎn)生時(shí)就去監(jiān)控日志，然后馬上進(jìn)行計(jì)算。比如頁(yè)面訪問(wèn)，有人點(diǎn)擊一下，我計(jì)算就+1，再有人點(diǎn)，+1。那么這個(gè)頁(yè)面的UV我也就能實(shí)時(shí)知道了。

　　Hadoop擅長(zhǎng)批處理，而Storm則是流式處理，吞吐肯定是Hadoop優(yōu)，而時(shí)延肯定是Storm好。

　　Rhadoop, RHipe

　　將R和hadoop結(jié)合起來(lái)2種架構(gòu)。

　　RHadoop包含三個(gè)包（rmr，rhdfs，rhbase），分別對(duì)應(yīng)MapReduce，HDFS，HBase三個(gè)部分。

　　Spark還有個(gè)叫SparkR的。

　　rmr

　　RHadoop的一個(gè)包，和hadoop的MapReduce相關(guān)。

　　另外Hadoop的刪除命令也叫rmr，不知道作者是不是指代的這個(gè)……

　　Classandra

　　一種流行的NoSql數(shù)據(jù)庫(kù)

　　我們常常說(shuō)Cassandra是一個(gè)面向列（Column-Oriented）的數(shù)據(jù)庫(kù)，其實(shí)這不完全對(duì)——數(shù)據(jù)是以松散結(jié)構(gòu)的多維哈希表存儲(chǔ)在數(shù)據(jù)庫(kù)中；所謂松散結(jié)構(gòu)，是指每行數(shù)據(jù)可以有不同的列結(jié)構(gòu)，而在關(guān)系型數(shù)據(jù)中，同一張表的所有行必須有相同的列。在Cassandra中可以使用一個(gè)唯一識(shí)別號(hào)訪問(wèn)行，所以我們可以更好理解為，Cassandra是一個(gè)帶索引的，面向行的存儲(chǔ)。

　　Cassandra只需要你定義一個(gè)邏輯上的容器（Keyspaces）裝載列族（Column Families）。

　　Cassandra適合快速開發(fā)、靈活部署及拓展、支持高IO。它和HBase互為競(jìng)爭(zhēng)對(duì)手，Cassandra+Spark vs HBase+Hadoop，Cassandra強(qiáng)調(diào)AP ，Hbase強(qiáng)調(diào)CP。

　　MongoDB, Neo4j

　　MongoDB是文檔型NoSQL數(shù)據(jù)庫(kù)。

　　MongoDB如果不涉及Join，會(huì)非常靈活和優(yōu)勢(shì)。舉一個(gè)我們最常見的電子商務(wù)網(wǎng)站作例子，不同的產(chǎn)品類目，產(chǎn)品規(guī)范、說(shuō)明和介紹都不一樣，電子產(chǎn)品尿布零食手機(jī)卡等等，在關(guān)系型數(shù)據(jù)庫(kù)中設(shè)計(jì)表結(jié)構(gòu)是災(zāi)難，但是在MongoDB中就能自定義拓展。

　　再放一張和關(guān)系型數(shù)據(jù)庫(kù)對(duì)比的哲學(xué)圖吧：

　　Neo4j是最流行的圖形數(shù)據(jù)庫(kù)。

　　圖形數(shù)據(jù)庫(kù)如其名字，允許數(shù)據(jù)以節(jié)點(diǎn)的形式，應(yīng)用圖形理論存儲(chǔ)實(shí)體之間的關(guān)系信息。

　　最常見的場(chǎng)景是社交關(guān)系鏈、凡是業(yè)務(wù)邏輯和關(guān)系帶點(diǎn)邊的都能用圖形數(shù)據(jù)庫(kù)。

　　跟關(guān)系數(shù)據(jù)庫(kù)相比，圖形數(shù)據(jù)庫(kù)最主要的優(yōu)點(diǎn)是解決了圖計(jì)算(業(yè)務(wù)邏輯)在關(guān)系數(shù)據(jù)庫(kù)上大量的join操作，比如讓你查詢：你媽媽的姐姐的舅舅的女兒的妹妹是誰(shuí)？這得寫幾個(gè)Join啊。但凡關(guān)系，join操作的代價(jià)是巨大的，而GraphDB能很快地給出結(jié)果。

　　——————

　　個(gè)人水平一般，內(nèi)容解讀不算好，可能部分內(nèi)容有錯(cuò)誤，歡迎指正。

　　本文寫的是文本挖掘、數(shù)據(jù)可視化和大數(shù)據(jù)。后續(xù)還只有一篇了。

　　?【第一篇】數(shù)據(jù)科學(xué)家成長(zhǎng)指南（上）點(diǎn)此進(jìn)入查看>>>

　　?【第三篇】數(shù)據(jù)科學(xué)家成長(zhǎng)指南（下）點(diǎn)此進(jìn)入查看>>>

注：本文作者秦路，版權(quán)著作權(quán)屬原創(chuàng)者所有，編輯：Fynlch（王培），數(shù)據(jù)觀微信公眾號(hào)（ID:cbdioreview），欲了解更多大數(shù)據(jù)行業(yè)相關(guān)資訊，可搜索數(shù)據(jù)觀（中國(guó)大數(shù)據(jù)產(chǎn)業(yè)觀察網(wǎng)www.21jieyan.cn）進(jìn)入查看。

責(zé)任編輯：王培

精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

純干貨丨數(shù)據(jù)科學(xué)家成長(zhǎng)指南（中）