精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

首頁 企業(yè)星環(huán)科技正文

PPT干貨丨星環(huán)科技孫元浩:大數(shù)據(jù)技術(shù)的最新進(jìn)展和潛在應(yīng)用

  數(shù)據(jù)觀·導(dǎo)讀

  日前,在2016中國大數(shù)據(jù)技術(shù)大會首日全體會議中,星環(huán)科技董事長&CTO孫元浩分享了主題為《大數(shù)據(jù)技術(shù)的最新進(jìn)展和潛在應(yīng)用》的演講。大數(shù)據(jù)技術(shù)的軟件棧分為分析管理工具、領(lǐng)域級引擎、通用計算引擎、資源管理框架以及分布式存儲引擎幾項。而Hadoop的發(fā)展目前已經(jīng)有了幾大進(jìn)展:分布式計算已逐漸成為主流計算方式;交互式分析技術(shù)日益成熟;數(shù)據(jù)分析算法逐漸豐富,工具普及化;融合事件驅(qū)動和批處理引擎。后Hadoop/Spark時代,新技術(shù)在數(shù)據(jù)量,類型,速度以及價值四個維度上都將加速創(chuàng)新。最后孫元浩表示:2016年是Hadoop技術(shù)大規(guī)模應(yīng)用的戰(zhàn)略轉(zhuǎn)折點(diǎn)。

  以下附PPT及演講實(shí)錄:

  我們過去一直致力于Hadoop的研發(fā),也在Hadoop上研發(fā)一些核心的技術(shù)產(chǎn)品,我們看到技術(shù)演進(jìn)非??欤救?9年開始就做Hadoop的研發(fā)工作,我們看到這個市場技術(shù)的變遷是非常大的,這里我們做一個簡單的回顧。

  Hadoop早期是參考了03年Google的論文,06年并入雅虎,雅虎成立一個團(tuán)隊做Hadoop的研發(fā),隨后把Hadoop作為互聯(lián)網(wǎng)的倉庫做分析,08年集群已經(jīng)真正開始在生產(chǎn)系統(tǒng)中使用了,所以我們說Hadoop有十年歷史其實(shí)是從06年開始算的,從那時真正開始投入在Hadoop的研發(fā)。到08年底的時候大家發(fā)現(xiàn)Hadoop的技術(shù)在互聯(lián)網(wǎng)公司應(yīng)用成熟了,開始有一些商業(yè)公司成立,致力于把Hadoop商業(yè)化,把它應(yīng)用到除了互聯(lián)網(wǎng)公司以外的其他行業(yè)中去,當(dāng)時定位在生物信息,后來是在政府、金融這些行業(yè)當(dāng)中。到11年的時候雅虎看到了這個市場的潛力,Hadoop團(tuán)隊出來成立了一個公司,是7、8月份成立的,隨后也發(fā)布了Hadoop的發(fā)行板產(chǎn)品,把Hadoop商業(yè)化,仍然是狹義上的Hadoop,包含分布式系統(tǒng)、包含計算引擎。幾乎在同時,09年、10年的時候,雖然Hadoop應(yīng)用當(dāng)中做批處理比較成功,但是仍然有一些新的公司在開發(fā)一些新的技術(shù),希望能夠做機(jī)器學(xué)習(xí),希望能夠做高效的交互式分析的引擎,那時候spark出現(xiàn)了,隨后大家發(fā)現(xiàn)它做機(jī)器學(xué)習(xí)非常高效,也用來做機(jī)器分析,到13年時候大家發(fā)現(xiàn)這個引擎具備取代m的潛力,14年的時候認(rèn)為基本上可以取代spark,今天這個引擎更多的出現(xiàn),經(jīng)過這么多年,好像真正成功的是做機(jī)器學(xué)習(xí)、流處理。

  技術(shù)引擎每過幾年都會發(fā)生巨大的變化,星環(huán)是13年成立的,借助Hadoop當(dāng)時開發(fā)一個Hadoop的引擎,當(dāng)時我認(rèn)為在Hadoop上開發(fā)一個App引擎是錯誤的,所以我們基于Spark做一個分析型的數(shù)據(jù)庫,同時過去三年當(dāng)中不停的在演變,在演變當(dāng)中開發(fā)機(jī)器學(xué)習(xí)的產(chǎn)品、流處理的產(chǎn)品和信息檢索的產(chǎn)品。

  整個大數(shù)據(jù)軟件棧分成5層,最下面是存儲引擎層,上面是資源管理框架層,其實(shí)這三個是演變關(guān)系,是替代關(guān)系,我認(rèn)為未來基于容器化的資源類的框架會逐漸取代其他,通用計算引擎這塊我們看到mapreduce慢慢退出了Spark還有一定的地位,在深度學(xué)習(xí)中有近20種深度學(xué)習(xí)的框架,這里列了一個文檔比較好的,大家學(xué)起來比較容易的通用的深度學(xué)習(xí)框架,上面有很多算法我們認(rèn)為它會具有生命力,當(dāng)然其他的引擎同樣具有生命力,在領(lǐng)域級引擎方面分為七大類,這七大類基本上覆蓋了所有的領(lǐng)域,這七個領(lǐng)域如果都做的成功,大數(shù)據(jù)應(yīng)用會得到極大的深化。

  第一個也是現(xiàn)在所有人投入的,用SQL 批處理倉庫,tensorflow已經(jīng)被淘汰掉了。另外交互式分析引擎,做內(nèi)存的列式存儲盡量提升交互式分析的性能,現(xiàn)在發(fā)現(xiàn)光用原來的標(biāo)準(zhǔn)的批處理引擎不適合做非常高速的分析,可能需要一個新的技術(shù),這也是為什么我們把它獨(dú)立出來的選。

  第三是做TP的,這里面有機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、圖分析,這七個是具備廣泛的適用性的,但是在某個應(yīng)用領(lǐng)域當(dāng)中。再往上是三大類工具,主要是機(jī)器學(xué)習(xí)的工具,這些工具是非常廣泛的應(yīng)用,構(gòu)成了整個大數(shù)據(jù)的軟件棧,這個軟件棧跟三年前相比已經(jīng)出現(xiàn)了非常大的不同,底層下面三層有些演變也有一些革命性變化,趨勢上會慢慢趨于穩(wěn)定,上面兩層在蓬勃發(fā)展當(dāng)中仍然有新的技術(shù)出現(xiàn)。

  ▊進(jìn)展到現(xiàn)在已經(jīng)看到有四個定論:

  第一個定論我們認(rèn)為分布式計算已經(jīng)成為主流的計算方式了;現(xiàn)在我們用Hadoop來做批處理運(yùn)行TBS、DS,它的性能在TB級上用29臺機(jī)器也能做到在三四十個小時內(nèi)完成的。在單秒超過4個TB仍然會有一些問題,但是基于Hadoop的引擎沒有局限性,能停留在TB級別,說明Hadoop技術(shù)已經(jīng)可以用來做大規(guī)模批處理來做數(shù)據(jù)庫了,當(dāng)然是很小的部分。這只是一個標(biāo)志點(diǎn),我們認(rèn)為分布計算已經(jīng)被認(rèn)為是比傳統(tǒng)技術(shù)更高效的,性價比更高的方案。

  第二個進(jìn)展我們發(fā)現(xiàn)交互式分析技術(shù)日益成熟了,我們過去希望把批處理改造成為交互式分析的方式,當(dāng)時大家走了彎路,大家模仿SPB數(shù)據(jù)庫開發(fā)一個搜索引擎,這種方式雖然數(shù)據(jù)在內(nèi)容當(dāng)中。我們發(fā)現(xiàn)文件系統(tǒng)上,仍然需要存列式存儲或者交互式分析。這也是我們最近這兩年總結(jié)的經(jīng)驗(yàn)教訓(xùn),發(fā)現(xiàn)過去希望是通過一個批處理引擎做Olib分析但是沒有成功,之于這些我們發(fā)現(xiàn)它的性能仍然有數(shù)代的提升,大家可以看到上面是做數(shù)據(jù)存在HDFS上不建CUBE的,這個訪問結(jié)果比較少,但是要求速度比較快。如果把CUBE建好以后,發(fā)現(xiàn)這個性能提升最低有50倍最高有500倍的提升,如果跟在HTC上相比有幾十倍的提升,說明借助CUBE是能顯著提高性能的,建造CUBE的成本較高,顯著的是固定報表稍微自助分析的。我們認(rèn)為在交互式分析這一塊,現(xiàn)在攻的TPC-H,我們認(rèn)為這個需要變化才能支持交互式分析的能力,當(dāng)然現(xiàn)在大部分的廠商還在跑TPC-S我們希望把它引到交互式分析上來。

  第三個進(jìn)展我們認(rèn)為機(jī)器學(xué)習(xí)的算法,參加每一屆的BDTC大會很有感觸,每年主題不一樣,經(jīng)過三年發(fā)展大家發(fā)現(xiàn)數(shù)據(jù)分析算法豐富了,算法也夠用,但是我們發(fā)現(xiàn)一個問題,在去年的時候我印象很深刻,去年討論機(jī)器學(xué)習(xí)的時候大家談?wù)摰氖撬惴ê芏啵蠹移吹氖撬惴〝?shù)量,到今年大家發(fā)現(xiàn)兩個問題去年也討論但是沒有解決的,一個問題是特征工程,特征工程需要大量的選擇數(shù)據(jù)的指標(biāo)來喂給算法做建模,這個工具是非常巨大的,沒有自動化,所有工作人員大量的花在數(shù)據(jù)選擇上面。這是第一個問題,現(xiàn)在看起來好像可以用深度學(xué)習(xí)的方法來做,幫你自動選擇這個特征。

  第二個問過去一直沒解決的是算法選擇的問題,今年有很多公司包括很多美國的創(chuàng)業(yè)公司在開發(fā)一些工具來提供自動模型選擇這樣的功能,它能夠自動幫你跑各種模型,描述你的問題是個分類問題還是一個聚類問題還是哪種問題,他會幫你把同一類算法全跑一遍,比較哪種算法的準(zhǔn)確度和效率,自動選擇一個算法或者組合一個新的算法這也是比較棘手的問題,現(xiàn)在工具出現(xiàn)了,幫你自動化選擇模型。

  第三個問題是如果分析出來一個結(jié)果,做了預(yù)測,預(yù)測的目的是我能不能改進(jìn),能不能反過來影響,找到哪些因素是影響結(jié)果的主要因素,這又是更深入的問題,這個問題現(xiàn)在仍然沒有很好的解決方法。今天我們看到進(jìn)展是數(shù)據(jù)分析的算法已經(jīng)很豐富了,今年工具也很豐富了,包括星環(huán)也提供兩種工具,二元的無縫集成,可以做數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí),也可以跟midas做無縫對接,所有做的是讓機(jī)器學(xué)習(xí)方法普及化,讓更多人使用,降低它的使用門檻,這一塊基本上成為現(xiàn)實(shí),當(dāng)然這里面仍然有些問題沒有解決,但是深度學(xué)習(xí)的工具已經(jīng)開始得到逐漸使用,今年客戶當(dāng)中接近20%的客戶在使用機(jī)器學(xué)習(xí)的產(chǎn)品。

  第四個進(jìn)展我認(rèn)為是在實(shí)時處理方面有蠻大的進(jìn)展,過去流處理技術(shù)大概分成兩大流派,最早是世界驅(qū)動的模型,是來一個事件就處理一個,好處是延時比較低但是強(qiáng)迫開發(fā)人員按照事件驅(qū)動的方式編程,這樣開發(fā)難度是非常高的,要在上面寫一個復(fù)雜的統(tǒng)計或者說在上面實(shí)現(xiàn)一個機(jī)器學(xué)習(xí)的算法要用事件驅(qū)動的方式實(shí)現(xiàn)還是有點(diǎn)困難的,所以SQL是換了一個方式,好處是編程模型變成批處理方式比較簡單了,缺點(diǎn)是需要等一段時間累計一段數(shù)據(jù)再處理,延時比較長,SQL延時沒有低于300毫秒過,但是對于應(yīng)用來講需求最難的是用戶希望在非常短的延時之內(nèi)處理非常復(fù)雜的模型,因?yàn)閼?yīng)用是越來越復(fù)雜的,延時要求也是越來越低的。這樣很有必要開發(fā)一個融合的引擎,底層可能是事件驅(qū)動的引擎對外提供的接口、編程模式完全是P處理模式,能夠支持C口重組過程是機(jī)器學(xué)習(xí),這種引擎才真正能夠在應(yīng)用當(dāng)中發(fā)揮作用,這是我們過去用一年半的時間發(fā)現(xiàn)這個是可能解決的,這是基于早期版本改造的,重構(gòu)了它的引擎,來一個事件,以前的mapreduce是實(shí)現(xiàn),我們發(fā)現(xiàn)它是被重構(gòu)成,以前mapreduce是分成多個streams,現(xiàn)在來一個直接到下一個streams去了,延時比較低,這是比較大的重構(gòu)。同時對外實(shí)現(xiàn)的接口是完整的批處理的編程模型,完全支持標(biāo)準(zhǔn)接口重組過程。這種方式我可以用來實(shí)現(xiàn)在低延時,在非常嚴(yán)苛的生長環(huán)境當(dāng)中對傳感器數(shù)據(jù)進(jìn)行非常復(fù)雜的分析,在上面運(yùn)行預(yù)測性的模型,比如用流處理預(yù)測風(fēng)力發(fā)電機(jī)齒輪葉片的故障情況,是實(shí)時采集數(shù)據(jù)的,在流上做預(yù)測的。也可以用在金融行業(yè)當(dāng)中用來做反欺詐、風(fēng)控。交易所的模型非常復(fù)雜,它的BS模型是要在流上求解一個方程,模型是很復(fù)雜的,但是要求要把當(dāng)前一秒的交易融入到從開盤到現(xiàn)在的整個交易的池當(dāng)中來算這個模型,而且要在一秒鐘之內(nèi)完成,這個要求非常高,所以就需要融合引擎,這是星環(huán)比較大的進(jìn)展,我們已經(jīng)實(shí)現(xiàn)了這樣一個融合引擎,也是比較領(lǐng)先于國外的產(chǎn)品和技術(shù),有一年以上了。

  總結(jié)一下這四個進(jìn)展我們認(rèn)為如果是看Hadoop、spark后面的技術(shù)發(fā)展趨勢我們發(fā)現(xiàn),又回到了大數(shù)據(jù)的四個V上面。我們發(fā)現(xiàn)SQLHadoop技術(shù)越來越成熟越來越完整,它能夠超越傳統(tǒng)的水準(zhǔn)。這樣我們認(rèn)為在未來兩三年當(dāng)中傳統(tǒng)的數(shù)據(jù)倉庫領(lǐng)域會被新技術(shù)取代或者顛覆掉,這個工作我們已經(jīng)在做,而且我們也走在了世界的前面。

  第二塊我認(rèn)為發(fā)展趨勢是在數(shù)據(jù)類型上面,過去大家在討論中用非計劃數(shù)據(jù)處理,但是仍然用Hadoop數(shù)據(jù)存儲這些非計劃處理,現(xiàn)在隨著深入學(xué)習(xí)框架的出現(xiàn),我們認(rèn)為這個應(yīng)用又帶來新一波的高潮,深度學(xué)習(xí)可以處理視頻、圖象圖像、語音、人機(jī)交互、自然語言處理,這些是現(xiàn)在正在如火如荼的發(fā)展當(dāng)中,但是我們認(rèn)為在這個領(lǐng)域我們國家并沒有走在原創(chuàng)型的前列,我們?nèi)匀辉趯W(xué)習(xí)美國人的技術(shù),有兩方面的原因,一方面我認(rèn)為是國外的需求在驅(qū)動,讓他們在開發(fā)引擎。第二是像GOOGLE這樣的公司可以動用幾十萬臺機(jī)器訓(xùn)練一個模型,它的資源投入是非常巨大的,這也是它能夠發(fā)展出這樣技術(shù)的重要原因。隨著GPU和SPV的硬件技術(shù),做深度學(xué)習(xí)、視頻分析、圖象處理可以充分利用混合架構(gòu)的或者GPU的計算能力,這一塊也是現(xiàn)在一個引進(jìn)的熱點(diǎn)。

  第三塊方向我認(rèn)為在流數(shù)據(jù)方面剛才講到了,過去流處理技術(shù)像steam基本上已經(jīng)被拋棄了,它還不夠成熟,未來肯定會成熟起來,但是方向肯定是對的,大家希望建造融合事件推動和批處理的引擎做實(shí)時處理。

  第四個方向我認(rèn)為從機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘這一塊,這個方向會是借助有成熟的算法、成熟的工具,大家發(fā)展的目標(biāo)是把算法工具能夠普及化,能夠讓更多人使用,發(fā)展大數(shù)據(jù)的價值,會有這樣的方向,這個方向會是商業(yè)公司做,因?yàn)槎ㄖ苹潭葧咭稽c(diǎn)。開源的會少一點(diǎn)。

  回過頭來看大數(shù)據(jù)市場,硅谷著名的VC認(rèn)為傳統(tǒng)數(shù)據(jù)平臺會在未來十年之內(nèi)全部被替換成Hadoop,當(dāng)然這是它的理想。我們認(rèn)為有1/3以上的部分會全部換成Hadoop,原來數(shù)據(jù)的分析軟件,傳統(tǒng)的軟件都會逐漸嵌入Hadoop上面來,他們會進(jìn)行重構(gòu)和遷移。

  整個生態(tài)系統(tǒng)日益繁榮,我們劃成倒三角形,底下是大數(shù)據(jù)平臺,上面是分析傳播、模型可視化、工具等等,再上面是大數(shù)據(jù)應(yīng)用,再上面是專業(yè)服務(wù)和定制開發(fā),我們看到這個市場變的比以往更繁榮,我們也看到技術(shù)大會擴(kuò)展到三天這也是一個標(biāo)志。

  我的觀點(diǎn)認(rèn)為2016年是Hadoop技術(shù)進(jìn)行企業(yè)進(jìn)行深化應(yīng)用的轉(zhuǎn)折點(diǎn),因?yàn)榍皟赡甏蠹叶颊勥@個技術(shù),這個技術(shù)還沒有成熟,大家都在試用。今年我們發(fā)現(xiàn)很多行業(yè)的重要客戶在應(yīng)用Hadoop到它的關(guān)鍵系統(tǒng)當(dāng)中去,像銀行客戶已經(jīng)在使用我們平臺構(gòu)造它的完整的數(shù)據(jù)倉庫,已經(jīng)不再用關(guān)聯(lián)數(shù)據(jù)庫,有客戶已經(jīng)用我們平臺構(gòu)造全行的風(fēng)險運(yùn)營系統(tǒng),這標(biāo)志著Hadoop已經(jīng)深入到行業(yè)當(dāng)中已經(jīng)開始成為某些行業(yè)的剛需,我認(rèn)為這是它的轉(zhuǎn)折點(diǎn)。這張圖是預(yù)測,它認(rèn)為未來五年大數(shù)據(jù)市場將有900億的規(guī)模,我們看到2016年他們也認(rèn)為增長會加速,但是未來5年市場仍然會保持30%的增速,所以整體的市場情況,仍然是需求非常旺盛的在產(chǎn)生,技術(shù)本身也在演變當(dāng)中。所以對所有客戶來講,大家希望看到統(tǒng)一的標(biāo)準(zhǔn)接口這也是一個需求,也是所有Hadoop廠商的一個訴求是我們能夠提供標(biāo)準(zhǔn)的通用化的接口,但是底層技術(shù)可能在不同的演變當(dāng)中,每個層次都有不同的變化,對外提供的接口比如提供在一些通用化的工具上面。

  同時技術(shù)本身也在飛速發(fā)展當(dāng)中,對技術(shù)開發(fā)人員來講仍然有新的技術(shù)出現(xiàn),仍然需要大家創(chuàng)造新的東西解決我們碰到的問題,我們也高性能看到有很多同行活躍在中國各個行業(yè)當(dāng)中在深度開展大數(shù)據(jù)的應(yīng)用。

  注:本文系數(shù)據(jù)觀綜合自CSDN“2016中國大數(shù)據(jù)技術(shù)大會”報道,版權(quán)著作權(quán)屬原創(chuàng)者所有。編輯:Fynlch(王培),數(shù)據(jù)觀微信公眾號(ID:cbdioreview),欲了解更多大數(shù)據(jù)行業(yè)相關(guān)資訊,可搜索數(shù)據(jù)觀(中國大數(shù)據(jù)產(chǎn)業(yè)觀察網(wǎng)www.21jieyan.cn)進(jìn)入查看。

?點(diǎn)擊進(jìn)入 星環(huán)科技 在數(shù)據(jù)觀的企業(yè)欄目>>>

責(zé)任編輯:王培

分享: