來(lái)源:數(shù)據(jù)觀 時(shí)間:2017-01-05 09:45:43 作者:數(shù)據(jù)派
本期清華大數(shù)據(jù)思享會(huì)工業(yè)大數(shù)據(jù)系列之“工業(yè)大數(shù)據(jù)管理技術(shù)”,清華大學(xué)數(shù)據(jù)科學(xué)研究院工業(yè)大數(shù)據(jù)研究中心總工程師、昆侖數(shù)據(jù)公司CTO王晨分享了大數(shù)據(jù)和數(shù)據(jù)管理的理解,并對(duì)工業(yè)大數(shù)據(jù)驅(qū)動(dòng)力、特點(diǎn)、難點(diǎn)和實(shí)踐路徑等進(jìn)行通俗而深刻的闡述。主題分享后,來(lái)自工業(yè)信息化領(lǐng)域、煤礦安全領(lǐng)域、設(shè)備運(yùn)維領(lǐng)域和工業(yè)實(shí)時(shí)數(shù)據(jù)庫(kù)領(lǐng)域及學(xué)術(shù)研究等領(lǐng)域的參會(huì)朋友就工業(yè)數(shù)據(jù)存儲(chǔ)架構(gòu)、工業(yè)領(lǐng)域數(shù)據(jù)采集、數(shù)據(jù)建模分析過(guò)程中行業(yè)專家與數(shù)據(jù)專家的配合等方面問(wèn)題進(jìn)行深入交流和討論。以下是分享的主要內(nèi)容:
一、什么是數(shù)據(jù)管理?
數(shù)據(jù)分析應(yīng)用是真正能夠直接解決企業(yè)問(wèn)題的,是顯露在外可以直接觀察的部分,但是在這之下有很大部分支撐數(shù)據(jù)分析應(yīng)用的就是數(shù)據(jù)管理技術(shù)。數(shù)據(jù)分析應(yīng)用需要一整套的處理和加工過(guò)程,數(shù)據(jù)就是原材料,需要把數(shù)據(jù)有序地存儲(chǔ)和管理起來(lái)。然后是數(shù)據(jù)的整理、清洗、集成,這個(gè)過(guò)程主要由數(shù)據(jù)工程師(DataEngineer)來(lái)完成,最后由數(shù)據(jù)科學(xué)家借助數(shù)據(jù)分體的工具和平臺(tái)根據(jù)業(yè)務(wù)問(wèn)題等實(shí)際需要采用不同的算法和方法等進(jìn)行數(shù)據(jù)分析。大數(shù)據(jù)的概念是由麥肯錫提出來(lái)的,后來(lái)有3V、4V、5V的解釋。就像盲人摸象一樣,大數(shù)據(jù)一直沒(méi)有準(zhǔn)確的定義。到底什么是大數(shù)據(jù)呢? 本質(zhì)上大數(shù)據(jù)就是數(shù)據(jù)驅(qū)動(dòng)的分析,大數(shù)據(jù)管理其實(shí)就是支撐數(shù)據(jù)應(yīng)用的平臺(tái)的管理技術(shù)。
最早數(shù)據(jù)存放在文件里,沒(méi)有中間件進(jìn)行數(shù)據(jù)管理,數(shù)據(jù)的存儲(chǔ)和讀取完全由應(yīng)用軟件完成。由此也造成用戶無(wú)法專注于應(yīng)用邏輯,而且還要清楚數(shù)據(jù)管理邏輯。在此過(guò)程中發(fā)現(xiàn)有越來(lái)越多共性的需求,從而提煉出數(shù)據(jù)管理技術(shù),作為獨(dú)立的中間件形態(tài)。從文件到數(shù)據(jù)庫(kù)的技術(shù)過(guò)程最早是百花齊放的,類似網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、層次數(shù)據(jù)庫(kù),到70年代突然只剩下關(guān)系型數(shù)據(jù)庫(kù)了,其背后的邏輯就是應(yīng)用驅(qū)動(dòng),因?yàn)樵?0年代只有銀行愿意為數(shù)據(jù)庫(kù)的技術(shù)買單,現(xiàn)在數(shù)據(jù)庫(kù)技術(shù)的許多概念都是源于金融體系。數(shù)據(jù)庫(kù)有一個(gè)很重要概念transaction,即事務(wù),需要保證數(shù)據(jù)的ACID,任何一個(gè)操作要保證其原子性、一致性、持久性、隔離性。同樣是在應(yīng)用驅(qū)動(dòng)下,后面又出現(xiàn)了很多種類型的數(shù)據(jù)庫(kù),因?yàn)橹挥幸环N關(guān)系型數(shù)據(jù)庫(kù)無(wú)法滿足所有需求。如有些數(shù)據(jù)分析的時(shí)候?qū)?shù)據(jù)庫(kù)寫入操作很少,但是有大量復(fù)雜的讀和查詢的操作,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)就出現(xiàn)了。2010年左右大數(shù)據(jù)技術(shù)的出現(xiàn),因應(yīng)了新的數(shù)據(jù)類型或者是數(shù)據(jù)的使用場(chǎng)景,各類NoSQL和NewSQL的數(shù)據(jù)庫(kù)開(kāi)始逐步涌現(xiàn)。
Wikipedia上關(guān)于大數(shù)據(jù)是用排除法做的定義,如果數(shù)據(jù)大、復(fù)雜,各方面處理的實(shí)時(shí)性高,傳統(tǒng)的數(shù)據(jù)管理技術(shù)和傳統(tǒng)的數(shù)據(jù)處理軟件處理不了或者處理不好,需要一些新的技術(shù)來(lái)解決,這些新技術(shù)就把它統(tǒng)稱為大數(shù)據(jù)技術(shù)。從科學(xué)研究的角度來(lái)說(shuō)這是非常糟糕的定義,這個(gè)定義里面充斥了各種形容詞,但這已經(jīng)是我們能夠找到最好的定義了。以前做事務(wù)管理的是關(guān)系型數(shù)據(jù)庫(kù),數(shù)據(jù)通過(guò)ETL的工具導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù),在數(shù)據(jù)倉(cāng)庫(kù)上建維表,建數(shù)據(jù)集市,在上面跑各種統(tǒng)計(jì)分析,是后面做各類報(bào)表,可能還要討論很多算法模型。如今我們突然發(fā)現(xiàn)這個(gè)傳統(tǒng)的數(shù)據(jù)流程走不下去了,需要找到新技術(shù)來(lái)實(shí)現(xiàn),這就是通常意義上所謂的大數(shù)據(jù)管理技術(shù)。
二、大數(shù)據(jù)管理技術(shù)怎么來(lái)?
大數(shù)據(jù)是應(yīng)用驅(qū)動(dòng)的,傳統(tǒng)的技術(shù)滿足不了應(yīng)用的需求,就需要找到新的數(shù)據(jù)管理技術(shù)來(lái)解決,這些新技術(shù)統(tǒng)稱為大數(shù)據(jù)管理技術(shù)。那么大數(shù)據(jù)管理技術(shù)又是怎么來(lái)的呢?
Google是最早嘗試使用新技術(shù)來(lái)滿足業(yè)務(wù)需求的公司,Google搜索先要把全世界的網(wǎng)頁(yè)扒回來(lái)存下來(lái),然后把關(guān)鍵詞抽取出來(lái),對(duì)這些網(wǎng)頁(yè)做排名,在線搜索的時(shí)候要根據(jù)用戶輸入的關(guān)鍵詞找到相應(yīng)的網(wǎng)頁(yè),這里怎么把網(wǎng)頁(yè)定位出來(lái),這些用傳統(tǒng)技術(shù)都不能很好的解決。Google抓取回來(lái)的海量數(shù)據(jù)用傳統(tǒng)的數(shù)據(jù)管理技術(shù)已經(jīng)無(wú)法存儲(chǔ),所以Google第一個(gè)搞出來(lái)的是GFS(Google File System)即Google的分布式文件系統(tǒng),可以把小型機(jī)的內(nèi)置盤連在一起,就像集中存儲(chǔ)一樣。Google的GFS存儲(chǔ)的不再是單個(gè)文件,所有的數(shù)據(jù)是大批量寫進(jìn)去、大批量讀出來(lái),沒(méi)有很多隨機(jī)的訪問(wèn),也可以做塊的讀取,采用分布式小型機(jī)存儲(chǔ),通過(guò)MapReduce的分布式技術(shù)框架來(lái)支撐大規(guī)模機(jī)器的計(jì)算。搜索的時(shí)候根據(jù)事先建立的索引,從存儲(chǔ)結(jié)果里面去找關(guān)鍵字key,對(duì)應(yīng)的value就是要找的網(wǎng)頁(yè)。
所以在數(shù)據(jù)庫(kù)方面Google先研發(fā)出了BigTable,BigTable現(xiàn)在開(kāi)源版本叫HBase,BigTable與關(guān)系型數(shù)據(jù)庫(kù)的區(qū)別主要表現(xiàn)在兩方面:第一,它支持key/value的查詢,通過(guò)一個(gè)鍵可以找到相應(yīng)的值,而不需要復(fù)雜的sql查詢;第二,每一個(gè)鍵對(duì)應(yīng)的值有很多,一個(gè)關(guān)鍵詞會(huì)有多少個(gè)網(wǎng)頁(yè),每個(gè)網(wǎng)頁(yè)需要存儲(chǔ)的內(nèi)容大小和網(wǎng)頁(yè)的復(fù)雜度都不一樣,關(guān)系型數(shù)據(jù)庫(kù)表結(jié)構(gòu)根本沒(méi)法設(shè)計(jì),所以在BigTable里引入了列組,每一行數(shù)據(jù)的列數(shù)都可以變。Google所有的這些創(chuàng)新,也都是根據(jù)自身業(yè)務(wù)的需求、數(shù)據(jù)的特點(diǎn),找到適合的解決方法。Google本身的技術(shù)堆棧也在演進(jìn),在14年已經(jīng)放棄使用MapReduce了,數(shù)據(jù)存儲(chǔ)管理的工具BigTable現(xiàn)在也不用了,Google已經(jīng)又有新的技術(shù)創(chuàng)新。
三、大數(shù)據(jù)管理技術(shù)的發(fā)展現(xiàn)狀和特點(diǎn)是什么?
從2016年世界的大數(shù)據(jù)圖景中,我們不難發(fā)現(xiàn)當(dāng)今世界上大數(shù)據(jù)領(lǐng)域是如此的蓬勃,在里面可以看到好多公司的名字,幾乎每個(gè)公司背后都會(huì)站著不止一家投資機(jī)構(gòu)。到底該選什么樣的產(chǎn)品或公司?今天的大數(shù)據(jù)世界到底是什么樣子?從哲學(xué)的觀念來(lái)看,世界就是合合分分、分分合合,就像之前有網(wǎng)狀數(shù)據(jù)庫(kù)和層次數(shù)據(jù)庫(kù)等,逐漸演變成關(guān)系型數(shù)據(jù)庫(kù)一統(tǒng)天下,后來(lái)又關(guān)系型數(shù)據(jù)庫(kù)分裂成了多種數(shù)據(jù)不同的管理機(jī)制。
這方面Apache的開(kāi)源項(xiàng)目大概歸成四類:第一類是數(shù)據(jù)管理,主要是數(shù)據(jù)庫(kù)相關(guān)的技術(shù);第二是數(shù)據(jù)分析框架,從下往上依次包括資源管理、計(jì)算框架、分析算法庫(kù)和任務(wù)工作流等組成部分;第三是數(shù)據(jù)工程的工具,包括Flume采集工具、Sqoop導(dǎo)入工具、Kafka傳輸工具等;第四是系統(tǒng)管理工具,有分布式協(xié)調(diào)、系統(tǒng)監(jiān)控。
Apache開(kāi)源項(xiàng)目上的發(fā)展現(xiàn)狀背后是什么驅(qū)力的呢?第一是應(yīng)用驅(qū)動(dòng),所有產(chǎn)品和服務(wù)的發(fā)展其實(shí)都是應(yīng)用驅(qū)動(dòng)的。如果今天有公司說(shuō)研發(fā)出通用的數(shù)據(jù)庫(kù),這與現(xiàn)實(shí)趨勢(shì)是背道而馳的。第二是生態(tài)化,每個(gè)組件的應(yīng)用過(guò)程都有特定的場(chǎng)景。比如MapReduce框架背后的假設(shè)實(shí)際上是每個(gè)算法可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的線性切分,線性切分之后在每個(gè)部分進(jìn)行同樣的分析,然后再把各部分的結(jié)果線性組合。Google之所以搞出這套框架,是因?yàn)槲谋緮?shù)據(jù)的處理上可以對(duì)數(shù)據(jù)進(jìn)行切片,切片的每塊數(shù)據(jù)可以相對(duì)獨(dú)立的計(jì)算。但很多情況下通常并不可以這樣來(lái)操作,比如社交網(wǎng)絡(luò)的圖數(shù)據(jù),如果把圖數(shù)據(jù)分割在十個(gè)節(jié)點(diǎn)上,原本相互聯(lián)通的兩個(gè)節(jié)點(diǎn)很有可能就被切斷了,因此需要類似GraphX的框架專門支持圖運(yùn)算。所以,最終會(huì)發(fā)現(xiàn)所有的技術(shù)都只能解決一些特定領(lǐng)域的問(wèn)題,或者是在某一個(gè)垂直方向上它具有一定的泛化能力,一個(gè)完整的大數(shù)據(jù)架構(gòu)需要不同的組件拼成一個(gè)完整的生態(tài)。第三是開(kāi)源化?,F(xiàn)在很多的產(chǎn)品都是開(kāi)源的,開(kāi)源背后的商業(yè)模式是什么?將來(lái)真正能形成一個(gè)產(chǎn)品嗎?科學(xué)研究需要一個(gè)轉(zhuǎn)化過(guò)程,首先從科學(xué)變化成技術(shù),然后是技術(shù)的工程化后變成產(chǎn)品,變成產(chǎn)品后可以帶來(lái)商業(yè)回報(bào),才能讓整個(gè)項(xiàng)目持續(xù)下去。今天這些開(kāi)源產(chǎn)品背后大部分可能就是一家公司,但是目前開(kāi)源項(xiàng)目的盈利模式仍然不是很清晰。所以開(kāi)源社區(qū)作為一種趨勢(shì)往下會(huì)如何發(fā)展,跟商業(yè)化怎么結(jié)合,依然是需要不斷探索的問(wèn)題。具體到工業(yè)大數(shù)據(jù)也是一樣,工業(yè)大數(shù)據(jù)怎么做的,仍然沒(méi)有多少人知道。即便是predix大概每三個(gè)月改版一次,做出來(lái)很多東西改版時(shí)丟了,可能下次又把這個(gè)東西撿回來(lái)了。
四、大數(shù)據(jù)管理技術(shù)的發(fā)展趨勢(shì)是什么?
大數(shù)據(jù)管理的技術(shù)發(fā)展的背景是從“互聯(lián)網(wǎng)”到了“互聯(lián)網(wǎng)+”,即從消費(fèi)互聯(lián)網(wǎng)向產(chǎn)業(yè)互聯(lián)網(wǎng)發(fā)展。以前互聯(lián)網(wǎng)應(yīng)用的領(lǐng)域主要在搜索、電子商務(wù)、社交等幾類當(dāng)中,現(xiàn)在已經(jīng)滲透到一個(gè)比一個(gè)復(fù)雜的領(lǐng)域:企業(yè)管理、政府治理、公共服務(wù)、現(xiàn)代農(nóng)業(yè)、智能制造、自主可控。我們國(guó)家自主可控強(qiáng)調(diào)得較多,但是在工業(yè)領(lǐng)域的數(shù)據(jù)利用水平依然很落后。其中主要面臨兩大方面的變化。第一是人才的變化,以前用大數(shù)據(jù)是互聯(lián)網(wǎng)公司的復(fù)合型極客,這些人有很強(qiáng)的數(shù)學(xué)功底、編程能力、數(shù)據(jù)管理技術(shù)、分布式計(jì)算技術(shù),同時(shí)掌握領(lǐng)域的業(yè)務(wù)知識(shí),是具備四大方面的全面型的人才。在產(chǎn)業(yè)互聯(lián)網(wǎng)領(lǐng)域里的人更多的是熟悉領(lǐng)域業(yè)務(wù)知識(shí),而計(jì)算機(jī)能力真的很有限。第二是數(shù)據(jù)種類的變化,以前互聯(lián)網(wǎng)領(lǐng)域是大量的文本數(shù)據(jù)、社交數(shù)據(jù)、多媒體數(shù)據(jù)等,而產(chǎn)業(yè)互聯(lián)網(wǎng)領(lǐng)域是大量的傳感器產(chǎn)生的實(shí)時(shí)數(shù)據(jù)、企業(yè)內(nèi)部的業(yè)務(wù)過(guò)程數(shù)據(jù),大量的非結(jié)構(gòu)化工程數(shù)據(jù)、仿真數(shù)據(jù)、設(shè)計(jì)的CAD數(shù)據(jù),這些數(shù)據(jù)跟傳統(tǒng)互聯(lián)網(wǎng)的數(shù)據(jù)都不太一樣。目前開(kāi)源產(chǎn)品或項(xiàng)目基本是針對(duì)傳統(tǒng)互聯(lián)網(wǎng)數(shù)據(jù)的,在產(chǎn)業(yè)互聯(lián)網(wǎng)領(lǐng)域并不能很好的適用,這就是今天大數(shù)據(jù)管理技術(shù)的整個(gè)發(fā)展趨勢(shì)。
五、工業(yè)大數(shù)據(jù)管理技術(shù)的驅(qū)動(dòng)力是什么?
工業(yè)大數(shù)據(jù)管理技術(shù)的驅(qū)動(dòng)力概括起來(lái)就是“加減乘除”,加法就是要提質(zhì)增效,也嘗試拓展更多的業(yè)務(wù);減法就是要降低成本、次品、和消耗;乘法就是要做一個(gè)平臺(tái)把所有供應(yīng)商的數(shù)據(jù)都整合到一起,使得所有的業(yè)務(wù)和上下游可以更加有效協(xié)同;最后,除法就是希望能夠通過(guò)平臺(tái)使得供應(yīng)鏈各環(huán)節(jié)可以精確的分工,實(shí)現(xiàn)輕資產(chǎn)的運(yùn)營(yíng)。
前面所提的加減乘除都是工業(yè)的業(yè)務(wù)變革,從業(yè)務(wù)角度上實(shí)現(xiàn)加減乘除,必然會(huì)涉及到信息化的部分。信息化與大數(shù)據(jù)是有區(qū)別的,大數(shù)據(jù)永遠(yuǎn)替代不了信息化,信息化系統(tǒng)與大數(shù)據(jù)系統(tǒng)是并存的。傳統(tǒng)信息化做的是數(shù)據(jù)、流程、業(yè)務(wù)的電子化,數(shù)據(jù)只是其中一環(huán)。具體到數(shù)據(jù)包括兩方面,一是OLTP的數(shù)據(jù),即支撐業(yè)務(wù)系統(tǒng)的數(shù)據(jù)處理;二是OLAP的數(shù)據(jù),即數(shù)據(jù)分析,除去流計(jì)算,大數(shù)據(jù)絕大多數(shù)的應(yīng)用場(chǎng)景是在數(shù)據(jù)分析部分。所以信息化和大數(shù)據(jù)本身是兩個(gè)層面的事,數(shù)據(jù)收上來(lái)后采用新的方式幫助業(yè)務(wù)目標(biāo)的實(shí)現(xiàn),通過(guò)這樣的過(guò)程提高效率。但是更好的維度是通過(guò)數(shù)據(jù)的分析讓工業(yè)生產(chǎn)和業(yè)務(wù)變的更智能,發(fā)現(xiàn)和找到別人不知道的知識(shí)。
數(shù)據(jù)分析基本上可以分成兩個(gè)層次,第一是初級(jí)分析,第二是高級(jí)分析。初級(jí)分析是傳統(tǒng)企業(yè)的BI。高級(jí)分析包括兩個(gè)層次的分析,第一個(gè)叫預(yù)測(cè)性分析(Predictive Analytics),通過(guò)數(shù)據(jù)分析預(yù)測(cè)未來(lái)會(huì)變成什么樣。第二叫“What-if Analytics”,如果預(yù)測(cè)的結(jié)果不好能否通過(guò)控制調(diào)節(jié)結(jié)果。
工業(yè)大數(shù)據(jù)分析有別于商業(yè)大數(shù)據(jù)分析。商業(yè)大數(shù)據(jù)主要是對(duì)用戶,分析用戶需要的業(yè)務(wù),比如說(shuō)阿里分析可以給用戶做推薦,分析用戶購(gòu)買某商品后可能買什么,并推薦給用戶相應(yīng)的產(chǎn)品。而工業(yè)大數(shù)據(jù)背后支撐的是物理機(jī)理模型,通過(guò)數(shù)據(jù)分析解決工業(yè)相關(guān)的問(wèn)題也需要滿足一定的機(jī)理。商業(yè)大數(shù)據(jù)通過(guò)相關(guān)性分析就非常有幫助,而工業(yè)大數(shù)據(jù)只有通過(guò)因果性分析才有用。如果一臺(tái)機(jī)器出現(xiàn)故障了,故障的原因一定是能找到的,如果找不出來(lái),可能會(huì)是兩方面的原因,一是我們今天對(duì)物理世界的探知能力還不夠,也許有新型的傳感器就能解決,因?yàn)槟壳耙阎淖兞坷锩孢€沒(méi)有能夠表示相應(yīng)的原因。二是今天我們的認(rèn)知能力不足,也許變量已經(jīng)有了,但是變量間非常復(fù)雜的合成過(guò)程仍未找到。工業(yè)大數(shù)據(jù)分析就是嘗試把后面的原因、規(guī)律找出來(lái)。
在我們現(xiàn)有的實(shí)踐中,工業(yè)大數(shù)據(jù)的應(yīng)用基本上可以歸結(jié)為三大類:一是與設(shè)備維護(hù)相關(guān),二是與運(yùn)營(yíng)優(yōu)化相關(guān),三是與2C的消費(fèi)品營(yíng)銷與設(shè)計(jì)反饋相關(guān)。這三個(gè)方面也只僅僅是工業(yè)大數(shù)據(jù)應(yīng)用的冰山一角。
六、工業(yè)大數(shù)據(jù)到底是什么數(shù)據(jù)?
傳統(tǒng)工業(yè)可以分成信息化和自動(dòng)化兩塊,信息化收集了大量數(shù)據(jù),自動(dòng)化也有很大進(jìn)展,但是自動(dòng)化域的信息化做的不夠。工業(yè)實(shí)時(shí)數(shù)據(jù)庫(kù)里存放的數(shù)據(jù)是不是真的已利用起來(lái)以及怎么用?實(shí)時(shí)數(shù)據(jù)庫(kù)和關(guān)系數(shù)據(jù)庫(kù)在寫入的能力上相關(guān)兩個(gè)數(shù)量級(jí)。海量的工業(yè)數(shù)據(jù)可以定入實(shí)時(shí)數(shù)據(jù)庫(kù),但要存放到關(guān)系數(shù)據(jù)庫(kù)必需降頻。但很多時(shí)候機(jī)器設(shè)備的數(shù)據(jù)大概要到ms的精度才能分析,進(jìn)行故障診斷,像鼓風(fēng)機(jī)的頻率是4k~8kHz。傳統(tǒng)的數(shù)據(jù)庫(kù)管理技術(shù)并沒(méi)有很好的解決這類高頻數(shù)據(jù)的存儲(chǔ)和管理,所以傳統(tǒng)信息化領(lǐng)域并沒(méi)有很好把自動(dòng)化域的數(shù)據(jù)管理好。
工業(yè)大數(shù)據(jù)主要來(lái)源于機(jī)器設(shè)備數(shù)據(jù)、工業(yè)信息化數(shù)據(jù)和產(chǎn)業(yè)鏈跨界數(shù)據(jù)。今天做工業(yè)大數(shù)據(jù)分析,不僅要看自己數(shù)據(jù)還要看別人的數(shù)據(jù),比如優(yōu)化供應(yīng)鏈的時(shí)候還需要市場(chǎng)銷售的數(shù)據(jù)、供應(yīng)商的數(shù)據(jù)等。風(fēng)電優(yōu)化分析除了利用風(fēng)機(jī)的數(shù)據(jù),也需要結(jié)合氣象的數(shù)據(jù)。很多外部數(shù)據(jù)原來(lái)工業(yè)界從來(lái)沒(méi)有嘗試過(guò)管理些這數(shù)據(jù),這是大數(shù)據(jù)分析的時(shí)候傳統(tǒng)工業(yè)上管理數(shù)據(jù)的機(jī)制遇到的一些挑戰(zhàn)。
七、工業(yè)大數(shù)據(jù)的特點(diǎn)是什么?
第一,多模態(tài)就是非結(jié)構(gòu)化數(shù)據(jù)。區(qū)別于傳統(tǒng)互聯(lián)網(wǎng)領(lǐng)域非結(jié)構(gòu)化的語(yǔ)音、文本、圖片、視頻等,工業(yè)領(lǐng)域非結(jié)構(gòu)化數(shù)據(jù)更加復(fù)雜,如仿真數(shù)據(jù)、CAD的文件等。模態(tài)是指同一家公司的不同仿真軟件和CAD軟件,不同版本之間的時(shí)間間隔不一樣且不兼容,不同學(xué)科使用的設(shè)計(jì)軟件不一樣,如在航空航天里面有上百種的軟件,數(shù)據(jù)的格式都不一樣。
第二,數(shù)據(jù)通量大。工業(yè)領(lǐng)域大量的傳感器是實(shí)時(shí)數(shù)據(jù),高頻采集使得工業(yè)大數(shù)據(jù)分析不能在以前秒級(jí)、分鐘級(jí)層面進(jìn)行分析做圖表可視化展示。工業(yè)大數(shù)據(jù)需要做到毫秒級(jí)甚至毫秒級(jí)以下的數(shù)據(jù)采集和分析。
第三,多學(xué)科協(xié)作。例如在衛(wèi)星上要加個(gè)部件或減個(gè)部件關(guān)鍵是看重量,如果重量絕對(duì)不能減,總設(shè)計(jì)師需要多學(xué)科協(xié)作,學(xué)科之間數(shù)據(jù)集成與融合,找到相應(yīng)的規(guī)律,確定需要加的部分和減的部分。其中工業(yè)領(lǐng)域的數(shù)據(jù)集成,有別于關(guān)系型數(shù)據(jù)庫(kù)里基于數(shù)據(jù)表結(jié)構(gòu)的集成,主要是指語(yǔ)義集成。例如一個(gè)時(shí)間序列的片段代表了某種故障,而該故障曾經(jīng)在維修報(bào)告里出現(xiàn)過(guò),這就需要能把語(yǔ)義提煉并關(guān)聯(lián)起來(lái)。
八、工業(yè)大數(shù)據(jù)管理技術(shù)的難點(diǎn)在哪?
工業(yè)大數(shù)據(jù)的工作步驟包括三個(gè)層面:第一個(gè)層面是數(shù)據(jù)的存儲(chǔ)管理,即建立數(shù)據(jù)的采集體系、數(shù)據(jù)持續(xù)采集與清洗、工業(yè)數(shù)據(jù)存儲(chǔ);第二個(gè)層面是數(shù)據(jù)治理,包括機(jī)器數(shù)據(jù)建模與元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量分析和數(shù)據(jù)關(guān)聯(lián)與語(yǔ)義集成;第三個(gè)層面是數(shù)據(jù)分析應(yīng)用,通過(guò)可視化進(jìn)行數(shù)據(jù)探索、數(shù)據(jù)分析和結(jié)果反饋。
拿數(shù)據(jù)質(zhì)量舉個(gè)例子,數(shù)據(jù)質(zhì)量主要看數(shù)據(jù)是否有假、是否會(huì)錯(cuò)及是否有漏的。工業(yè)數(shù)據(jù)來(lái)自于設(shè)備,工業(yè)數(shù)據(jù)同樣可能會(huì)造假,設(shè)備會(huì)帶來(lái)很多真假數(shù)據(jù)的問(wèn)題。通過(guò)對(duì)三一機(jī)械設(shè)備位油分析的用戶的使用和加油行為,發(fā)現(xiàn)里面至少可分為三類:第一類對(duì)設(shè)備的保養(yǎng)特別好,每次用一半就加油(左上角圖);第二類反映車主和司機(jī)之間極其不信任,每用一次就加一次1、200塊油(右上角圖);第三類是要等到油用光了之后才加的土豪(左下角圖)。
這張圖是油位傳感器傳回來(lái)的實(shí)際數(shù)據(jù)。如果傳感器有問(wèn)題,數(shù)據(jù)就收不準(zhǔn),實(shí)際數(shù)據(jù)也根本沒(méi)法分析,因?yàn)樽钤鐪y(cè)油位的傳感器用的是浮子,不平的路面和油的粘滯力,都上下浮動(dòng)的油位傳感器測(cè)不準(zhǔn)。
自動(dòng)化部門與信息化部門之間脫節(jié),自動(dòng)化部門更換了傳感器,信息化部門并不知道,更換傳感器后采集的數(shù)據(jù)是真實(shí)的(黃點(diǎn)),但數(shù)據(jù)分布已經(jīng)變了,如果仍用同一個(gè)模型進(jìn)行分析顯然已經(jīng)無(wú)效了,所以至少針對(duì)新的傳感器采集到的數(shù)據(jù)重新建立模型。
此外,還有傳感器的錯(cuò)誤導(dǎo)致數(shù)據(jù)的問(wèn)題,如車開(kāi)著油溫傳感器數(shù)據(jù)為零,這種情況肯定導(dǎo)致了數(shù)據(jù)錯(cuò)誤。
所以現(xiàn)實(shí)中各種各樣的問(wèn)題導(dǎo)致今天的數(shù)據(jù)質(zhì)量存在大量問(wèn)題。如何來(lái)解決這個(gè)問(wèn)題,大家也都在研究中,陸續(xù)將有一系列的方法來(lái)解決這個(gè)問(wèn)題。
多模態(tài)數(shù)據(jù)語(yǔ)義融合的目標(biāo)是構(gòu)建具有制造語(yǔ)義的知識(shí)圖譜,以工業(yè)領(lǐng)域的BOM為核心,基于知識(shí)圖譜建立結(jié)構(gòu)化與非結(jié)構(gòu)化實(shí)體和語(yǔ)義標(biāo)注,構(gòu)建具有制造語(yǔ)義的知識(shí)圖譜,因?yàn)樵贐OM里很多實(shí)體關(guān)系比較清晰。通過(guò)知識(shí)圖譜的構(gòu)建,跨領(lǐng)域本體可以從語(yǔ)義標(biāo)注中找出相互間的關(guān)聯(lián)性,時(shí)間序列片段帶有的故障碼就可能通過(guò)知識(shí)圖譜識(shí)別和發(fā)現(xiàn)。
九、工業(yè)大數(shù)據(jù)管理系統(tǒng)研發(fā)的要點(diǎn)是什么?
工業(yè)大數(shù)據(jù)系統(tǒng)的核心在于“效能+易用性”,首先要保證系統(tǒng)的速度足夠快、系統(tǒng)足夠強(qiáng),即要滿足高吞吐量,事務(wù)處理模型全局的一致性。第二要保證支持?jǐn)?shù)據(jù)的變化、人員的變化,保證系統(tǒng)好用,保證系統(tǒng)在工業(yè)領(lǐng)域都能用起來(lái),即系統(tǒng)能夠支撐起專業(yè)化查詢和分析引擎,易于管理和維護(hù),可以水平擴(kuò)展,并且具有容錯(cuò)和故障恢復(fù)的能力。
十、如何建設(shè)工業(yè)大數(shù)據(jù)管理系統(tǒng)?
工業(yè)大數(shù)據(jù)管理系統(tǒng)的建設(shè)包括戰(zhàn)略層面和戰(zhàn)術(shù)層面。戰(zhàn)略層面上首先業(yè)務(wù)目標(biāo)必須明確,其次是系統(tǒng)架構(gòu)要通盤考慮,第三是業(yè)務(wù)需要充分參與,僅有信息化人員的參與沒(méi)有業(yè)務(wù)人員是不可能建設(shè)出符合業(yè)務(wù)需求的系統(tǒng)。戰(zhàn)術(shù)層面有三方面,第一是數(shù)據(jù)要盡早收集,即使沒(méi)有很好的機(jī)制,用文件的方式也要先把數(shù)據(jù)存下來(lái),沒(méi)有數(shù)據(jù)或者只有三個(gè)月、一年等少量的數(shù)據(jù),根本無(wú)法滿足分析的需求。第二是應(yīng)用小步快跑,應(yīng)用需求明確了就可以根據(jù)已有資源先實(shí)現(xiàn),很多應(yīng)用是不依賴于大數(shù)據(jù)平臺(tái)本身的,用關(guān)系型數(shù)據(jù)庫(kù)甚至是Excel就可以直接實(shí)現(xiàn)。第三是人才系統(tǒng)培養(yǎng),將企業(yè)內(nèi)部的人朝復(fù)合型人才去培養(yǎng),外部人才和服務(wù)可能都因成本過(guò)高企業(yè)難以承受,而且人才培養(yǎng)是長(zhǎng)期的,可能至少培養(yǎng)一年到兩年才能達(dá)到較好的水平,所以業(yè)務(wù)要盡快和充分的參與進(jìn)來(lái)。
工業(yè)大數(shù)據(jù)平臺(tái)的實(shí)施路徑一定要在業(yè)務(wù)和數(shù)據(jù)的雙輪驅(qū)動(dòng)下進(jìn)行。業(yè)務(wù)層面需要牢牢把握信整體業(yè)務(wù)目標(biāo)、具體業(yè)務(wù)提升和轉(zhuǎn)型方向、業(yè)務(wù)流程改造目標(biāo)以及業(yè)務(wù)流的映射。數(shù)據(jù)層面需要圍繞數(shù)據(jù)同步、交換、關(guān)聯(lián)和集成、數(shù)據(jù)質(zhì)量、數(shù)據(jù)的存儲(chǔ)、管理和使用、以及數(shù)據(jù)的特點(diǎn)和規(guī)模與來(lái)源等方面。限于時(shí)間今天具體的技術(shù)和應(yīng)用都無(wú)法展開(kāi),希望以后有機(jī)會(huì)再交流。
注:本稿件摘自入駐數(shù)據(jù)觀自媒體——THU數(shù)據(jù)派,轉(zhuǎn)載請(qǐng)注明來(lái)源。微信掃描下方二維碼獲取更多大數(shù)據(jù)資訊。
責(zé)任編輯:湯德正