來源:數(shù)之聯(lián)大數(shù)據(jù) 時間:2017-08-16 16:14:20 作者:
周濤:“數(shù)據(jù)挖掘就是從數(shù)據(jù)中發(fā)現(xiàn)知識的過程”
——傳統(tǒng)企業(yè)亟待借力“大數(shù)據(jù)”轉(zhuǎn)型升級!
8月10日,由成都市經(jīng)信委主辦,成都市電子商務(wù)協(xié)會等承辦的2017年“互聯(lián)網(wǎng)+實踐專題論壇—互聯(lián)網(wǎng)對企業(yè)升級轉(zhuǎn)型的影響”舉行。論壇上,行業(yè)專家思想火花碰撞,提出了不少新穎的觀點。電子科技大學(xué)大數(shù)據(jù)研究中心主任、數(shù)之聯(lián)CEO周濤發(fā)表《大數(shù)據(jù)助力企業(yè)轉(zhuǎn)型升級》主題演講,“糾正”了傳統(tǒng)認(rèn)知的關(guān)于大數(shù)據(jù)認(rèn)知解釋,并進一步闡述大數(shù)據(jù)的發(fā)展趨勢和特征對于傳統(tǒng)企業(yè)升級轉(zhuǎn)型具有廣泛的應(yīng)用價值。
(數(shù)之聯(lián)CEO周濤發(fā)表主題演講)
以下為演講實錄:
今天的報告是一個命題作文,談?wù)劥髷?shù)據(jù)怎么幫傳統(tǒng)企業(yè)轉(zhuǎn)型升級。一談到傳統(tǒng)企業(yè),除了農(nóng)業(yè),大家能想到的聚焦點就是工業(yè)制造。我的報告今天分兩個部分,前面簡單講怎么理解大數(shù)據(jù)及大數(shù)據(jù)時代,而后集中講大數(shù)據(jù)如何幫助工業(yè)制造企業(yè)實現(xiàn)轉(zhuǎn)型升級。
什么是數(shù)據(jù)?
數(shù)據(jù)的概念百度百科說的非常復(fù)雜,是事實或觀察的結(jié)果,是對客觀事物的邏輯歸納,是用于表示客觀事物的未經(jīng)加工的原始素材,而我們認(rèn)為數(shù)據(jù)是可定量分析的記錄。幾百年前,從地理開始記錄星象才有了開普勒三大定律、牛頓萬有引力,那時我們就有很多數(shù)據(jù)。一兩百年前豌豆的雜交記錄實際上就是生物學(xué)的數(shù)據(jù)記錄。所以數(shù)據(jù)很早,遠(yuǎn)遠(yuǎn)早于計算機之前?,F(xiàn)在我們放在計算機時代,可以通過數(shù)據(jù)挖掘的方法獲得一些知識,其中一部分知識又能夠轉(zhuǎn)化成價值。
什么是大數(shù)據(jù)?
提法比較多,百度百科指無法在一定時間范圍內(nèi)常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,這種提法比較盲目的,我們不太認(rèn)同。最早,IBM提出4V:Volume(大量)+Velocity(高速)+Variety(多樣)+Value(低價值密度)。在我翻譯的維克托·邁爾的書里面,他曾經(jīng)提到說“大數(shù)據(jù)所代表的是當(dāng)今社會所獨有的一種新型能力—以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,來獲得有巨大價值的產(chǎn)品和服務(wù)或深刻的洞見?!?/p>
在我看來,我們現(xiàn)在大體上處在大數(shù)據(jù)時代的門口,推動我們走到這兒的大概有三個目標(biāo),第一是數(shù)據(jù)總量的爆發(fā)性增長。我們現(xiàn)在幾乎所有的互聯(lián)網(wǎng)數(shù)據(jù),包括未來、包括車聯(lián)網(wǎng),很多數(shù)據(jù)都會通過傳感器、互聯(lián)網(wǎng)分析被記錄下來?,F(xiàn)在全球存儲的數(shù)據(jù)總量16ZB,再過8年,這個數(shù)據(jù)量會翻十倍,到達(dá)163ZB,這是第一個大的趨勢,數(shù)據(jù)總量的爆炸性增長,它讓我們普通人很難在十多億淘寶單品、數(shù)萬億網(wǎng)頁做出選擇,這就是信息過載(Information overload,可獲取數(shù)據(jù)的爆炸增長和普通人分辨甄別數(shù)據(jù)之間的矛盾)。
第二個大的變化就是數(shù)據(jù)形態(tài)。以前絕大部分?jǐn)?shù)據(jù)都是表格里的數(shù)據(jù),我們用一些簡單的商務(wù)智能的方法就能進行統(tǒng)計分析,比如回歸分析、決策樹、支持向量機,貝葉斯分析、神經(jīng)網(wǎng)絡(luò)等等,都可以得到各個項與最終結(jié)果之間的關(guān)聯(lián)。但是現(xiàn)在絕大部分?jǐn)?shù)據(jù),去年新增數(shù)據(jù)的89%都是非結(jié)構(gòu)化的數(shù)據(jù),它主要包括文本、圖像、視頻、語音、社交網(wǎng)絡(luò)等等,這里面有大量重要有價值的數(shù)據(jù),但是難以用一些簡單的方法去挖掘,所以這是第二個大趨勢,怎么樣去分析非結(jié)構(gòu)化數(shù)據(jù),并且在某些特定情況把它變成結(jié)構(gòu)化數(shù)據(jù)。
第三個大的變化就是數(shù)據(jù)的組織形態(tài)發(fā)生了變化。以前絕大部分?jǐn)?shù)據(jù)我們認(rèn)為它都是一個一個孤立的項,比如說淘寶知道我買了什么東西,新浪微博知道我有什么朋友,線下的醫(yī)院知道我們得了什么病,公安知道我們犯了什么罪,但我們不知道這其中的關(guān)聯(lián),買了這個東西的人得了什么病、犯了什么罪?,F(xiàn)在我們可以逐步的通過一些商業(yè)方式、政策打通在很多個局委辦和數(shù)據(jù)集中同一個人、同一家企業(yè)、同一個終端在不同地方的數(shù)據(jù),所以這屬于第三個大變化。
什么樣的情況下我們可以說進入了大數(shù)據(jù)時代?
我認(rèn)為有三個大的體征,第一是數(shù)據(jù)的外部化,就是一組數(shù)據(jù)它不僅僅在一個地方發(fā)揮作用而是能夠流動共享,在十個、一百個、上千個地方發(fā)揮價值;第二就是人工智能,我們要用人工智能,尤其是機器學(xué)習(xí)、數(shù)據(jù)挖掘的技術(shù)去獲得簡單統(tǒng)計分析所得不到的深刻洞見,再用這種深刻洞見去指導(dǎo)我們高效準(zhǔn)確地決策;第三就是價值,光有這些數(shù)據(jù),它首先是成本。我們所謂的大數(shù)據(jù)時代不是說用越來越多的錢存越來越多的數(shù)據(jù),而是有越來越多比例的數(shù)據(jù)能夠發(fā)揮價值,至少能夠戰(zhàn)勝存儲它的成本,把這些結(jié)合起來才能叫大數(shù)據(jù)時代。
所以我認(rèn)為“大數(shù)據(jù)是基于多源異構(gòu)、跨域關(guān)聯(lián)的海量數(shù)據(jù)分析所產(chǎn)生的決策流程、商業(yè)模式、科學(xué)范式、生活方式和觀念形態(tài)上的顛覆性變化的總和?!?/p>
什么是數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘與第一性原理不同。第一性原理是基本的宇宙中基本常識和參數(shù),再基于一些簡單的定理來推導(dǎo)原子分子各種各樣的性狀。但是數(shù)據(jù)挖掘不一樣,舉個簡單的例子,了解一個人跑一百米跑的快不快,那我就用一個人的很多數(shù)據(jù)去了解身高、腿長、臂長、擺臂的幅度和他跑步的速度之間的關(guān)聯(lián)關(guān)系,這是數(shù)據(jù)挖掘,但是我不可能建立一個方程真的去描述一個人他怎么去跑步,這太復(fù)雜,不是大家想象的用牛頓力學(xué)就能夠建立一個人跑步的精確方程,這涉及到人體內(nèi)很復(fù)雜的過程。
但是呢,我們沒有這些第一性原理的認(rèn)識,依然可以建立一個數(shù)據(jù)挖掘的模型,因為數(shù)據(jù)挖掘本身是從數(shù)據(jù)中發(fā)現(xiàn)知識的過程,它可以拋開基本的數(shù)學(xué)、物理的方法來解釋,但是這兩者之間并不互相排斥,而是互相關(guān)聯(lián)。舉個例子,當(dāng)你了解到第一性原理,比如你大概知道雖然不能建立方程,但我大概知道牛頓力學(xué),大概知道什么東西和跑步有關(guān)系,那就可以幫助找到我所需要的數(shù)據(jù),比如一個人腿的長度和他跑一百米的速度是有關(guān),但是和腋毛的長度是沒有關(guān)系的,但是如果你什么知識都沒有,那你為什么不去測腋毛的長度要去測測腿的長度,所以計算機almost把它們put到同等重要的位置,但不是,是因為我們認(rèn)為腿長是重要的,腋毛長度沒關(guān)系。
反過來講,當(dāng)我們有了數(shù)據(jù)挖掘的工具實際上是可以反向發(fā)現(xiàn)一些方程,最早在09年就有人用數(shù)據(jù)挖掘的方法反向推理已知的定律。最近Science期刊用數(shù)據(jù)挖掘去發(fā)現(xiàn)一些很優(yōu)美的方程,這些都是很典型的兩者互相幫助的例子。
數(shù)據(jù)挖掘就是從數(shù)據(jù)中發(fā)現(xiàn)知識的過程。----周濤
但與第一性原理不同,數(shù)據(jù)挖掘不是從基本參數(shù)和公理體系出發(fā),而是直接從數(shù)據(jù)中得到知識。數(shù)據(jù)挖掘的可信度不如第一性原理,但是能夠處理更加復(fù)雜的系統(tǒng)。兩者有相互結(jié)合、互為補益的趨勢。
數(shù)據(jù)挖掘在工業(yè)企業(yè)的應(yīng)用實踐
下面講講工業(yè)中怎么樣用機器學(xué)習(xí)、數(shù)據(jù)挖掘的方法能夠幫助我們進行提升。
舉一個很典型、簡單的例子,我喜歡吃巧克力,巧克力的保質(zhì)期一般是12個月,保質(zhì)期的概念最早來自于壽命分布,一個東西出廠時間是T(橫坐標(biāo))從0開始,縱坐標(biāo)是質(zhì)量好的概率,開始是1,基于這個壽命曲線,日本人最早提出保質(zhì)期的概念,但實際上保質(zhì)期不是一個非0即1的過程。一塊兒巧克力保質(zhì)期是12個月,我在剛過保質(zhì)期第一天打開吃,并沒有壞掉,一千塊里只有3塊壞掉,還有997塊是好的;如果再過一年,相當(dāng)于過保質(zhì)期24個月后打開來吃,只壞掉40多塊,再過一年就要壞掉將近一半,所以說在這個簡單的保質(zhì)期背后實際上是有巨大的浪費,我們希望個性化的去處理這個事。
下一個是很普適的例子,管理工業(yè)耗件的壽命。
在整個工業(yè)的機加工里面消耗量最大的就是刀具,在和富士康的合作中,郭臺銘自己說每年消耗掉5-8億把刀,每把刀80元左右,每年上百億消耗在刀具上,怎么管理刀是富士康的重點。我們在重慶做了工業(yè)大數(shù)據(jù)的研究院,其中第一個所就是智慧刀具研究所。
常州瑞生一年一個車間大概消耗500萬把刀,上千臺車床,每臺車床每年用5000把刀,我們通過改造他的車床,加了一個集流器讀電流的數(shù)據(jù),同時加了攝像頭看刀口的數(shù)據(jù)(改造的成本大概2000多),可以看到磨損的電的時間序列和刀頭的圖像信號,對于這種時間序列我們用稀疏貝葉斯學(xué)習(xí),圖像用卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí),通過建立的預(yù)測刀磨損的壽命模型,現(xiàn)在每把刀壽命可以提高25%,而且還降低了加工壞手機殼的概率,一年一個車間可以省下一百多萬把刀。
再講一個生產(chǎn)線上給集成電路做SMT的貼片封裝案例。集成電路做封裝涉及到17個加工工序,80多個操作,每個操作都會記錄很多組數(shù)據(jù),一個集成電路板從粗板原材料到刻蝕、紅外線燒蝕到最終的集成電路板過程中會有很多板子壞掉,還會有優(yōu)品、殘次品的分級評定。通過測幾十個指標(biāo)然后會給一個定級是否合格,再往下變成商品。加工過程的80個action如果中途已經(jīng)發(fā)現(xiàn)壞掉就可以直接拋料,這會節(jié)省很多成本,因為整個加工流程的成本比原材料的成本要大很多。
第二個問題,我想了解幾十個測試參數(shù)和加工流程中的每一個action中的數(shù)據(jù)之間關(guān)系,到底哪些因素是主要決定加工優(yōu)品、次品,哪些因素決定哪幾項指標(biāo)。針對SMT的流水線,通過對吸嘴、原件數(shù)據(jù)的數(shù)據(jù)整合,整理、衍生出500多個拋料特征訓(xùn)練設(shè)備檢測模型。在對SMT流水線數(shù)據(jù)的建模過程中,利用集成模型可以精確地判定是否存在異常。其中進料的準(zhǔn)確率,相比之前的87.60%,達(dá)到了現(xiàn)在的96.77%。
以上是兩個簡單的例子,我認(rèn)為整個工業(yè)4.0涉及到生產(chǎn)經(jīng)營的方方面面,但是最核心最要害的東西是在加工生產(chǎn)過程中,這是一個硬骨頭,我們其他的問題諸如倉儲、生產(chǎn)線的管理、供應(yīng)鏈的管理、營銷以前多多少少都是有人做的,但是加工過程怎么優(yōu)化,這里面涉及到很多很難、很有挑戰(zhàn)性的問題,所以我希望工業(yè)制造企業(yè)可以花點兒力氣多關(guān)注一下機器學(xué)習(xí)、人工智能在加工過程中的應(yīng)用。
未來,不管是什么類型的傳統(tǒng)企業(yè),有多傳統(tǒng),一個以數(shù)據(jù)作為原材料,以人工智能做牽引的時代到來是不可阻擋的,所以最后通過我的報告?zhèn)鹘o大家的一句話就是希望大家充分的擁抱新時代,做更好的準(zhǔn)備。我很欣賞機械師的一句話:勝利總是青睞有準(zhǔn)備的頭腦。希望今天在座各位能夠更好更充分的準(zhǔn)備,從而成為下個時代的勝利者。
責(zé)任編輯:陳近梅