來源:數(shù)據(jù)觀-自媒 時間:2017-01-23 10:13:44 作者:大數(shù)據(jù)文摘
我們收集、處理、分析和使用大量數(shù)據(jù)的能力對社會的各個方面都產(chǎn)生了深遠的影響。這種轉(zhuǎn)變導(dǎo)致了新興學(xué)科數(shù)據(jù)科學(xué)的出現(xiàn)。諸多領(lǐng)域?qū)?shù)據(jù)科學(xué)的興趣呈現(xiàn)爆炸式的增長,包括社會科學(xué)、自然科學(xué)和物理學(xué)等領(lǐng)域,涉及空前的規(guī)模和多樣性的數(shù)據(jù),通過集聚大量的操作和行為的信息來產(chǎn)生新的服務(wù)或收入來源的產(chǎn)業(yè)以及需要利用數(shù)據(jù)更好地造福社會的政府、社會服務(wù)和非營利機構(gòu)。
這一新興學(xué)科依賴于數(shù)學(xué)和統(tǒng)計建模,計算思維和方法,數(shù)據(jù)表示和管理和被研究領(lǐng)域?qū)I(yè)知識的新的融合。雖然計算領(lǐng)域已經(jīng)提供了許多支持?jǐn)?shù)據(jù)科學(xué)的應(yīng)用原則、工具和技術(shù)和諸多案例,計算機科學(xué)界也有機會作出新的研究進一步推動該領(lǐng)域的發(fā)展。此外,學(xué)界也有義務(wù)制定數(shù)據(jù)科學(xué)應(yīng)用的發(fā)展指導(dǎo)方針。
包括統(tǒng)計,數(shù)學(xué),社會科學(xué),自然科學(xué)和計算機科學(xué)等在內(nèi)的多個領(lǐng)域為數(shù)據(jù)科學(xué)的誕生奠定了一套強大的基礎(chǔ)。事實上,傳統(tǒng)的計算機科學(xué)研究的各個方面都在數(shù)據(jù)科學(xué)的發(fā)展中起到了作用。放眼未來,數(shù)據(jù)科學(xué)也將引領(lǐng)全新的計算研究。
從數(shù)據(jù)管理的角度來看,數(shù)據(jù)科學(xué)需要在如何獲取,存儲和訪問數(shù)據(jù)方面有更深的理解和表現(xiàn),對數(shù)據(jù)世系、數(shù)據(jù)質(zhì)量、質(zhì)量保證、數(shù)據(jù)集成、存儲、隱私和安全都需要有更深入的思考。傳統(tǒng)獲取和存儲數(shù)據(jù)的方式在處理告訴或敏感的數(shù)據(jù)時可能不能奏效。
從計算的角度來看,非常大的數(shù)據(jù)量,非常高的數(shù)據(jù)速率,和非常大的用戶數(shù)都需要的新的系統(tǒng)和新的算法。新的系統(tǒng)架構(gòu)可以適應(yīng)數(shù)據(jù)異質(zhì)性和不規(guī)則的結(jié)構(gòu),這些在數(shù)據(jù)訪問和通信中也必要的。從算法的角度,我們需要有線性算法,在線算法,支持實時數(shù)據(jù)流,和概率和隨機的方法來應(yīng)對數(shù)據(jù)的規(guī)模和數(shù)據(jù)中的噪聲。
此外,許多經(jīng)典的統(tǒng)計假設(shè)和機器學(xué)習(xí)技術(shù)不適合目前的數(shù)據(jù)科學(xué)的需求。數(shù)據(jù)越是自然來源的越有可能是有偏見的、不完整和高度異質(zhì)性。時間跨度長且來源廣泛的數(shù)據(jù)的拼接會導(dǎo)致自動采集的數(shù)據(jù)和不一致從而帶來系統(tǒng)錯誤給建模方面帶來了深遠的挑戰(zhàn),也給新的統(tǒng)計方法和機器學(xué)習(xí)算法帶來機遇。即使對于“小數(shù)據(jù)”,新的應(yīng)對數(shù)據(jù)異質(zhì)性和數(shù)據(jù)采集偏倚的方法也是需要的。雖然預(yù)測建模至關(guān)重要,但是許多數(shù)據(jù)科學(xué)也涉及決策以及根據(jù)行動的變化做出推理的能力。此外,理解維度災(zāi)難,過擬合和復(fù)雜設(shè)置下的因果關(guān)系也是關(guān)鍵的。
數(shù)據(jù)規(guī)模和異質(zhì)性的挑戰(zhàn)也從根本上改變用戶如何與數(shù)據(jù)和模型相互作用:如何將數(shù)據(jù)可視化,支持?jǐn)?shù)據(jù)科學(xué)模型結(jié)果的理解和解釋需要什么算法,如何做出決策,以及如何獲得和整合用戶反饋。人機交互和可視化分析將需要更緊密的整合數(shù)據(jù)科學(xué)模型和算法。自然語言處理,語音,計算機視覺和其他人機通信模式的新案例也將隨之出現(xiàn)。
由于數(shù)據(jù)科學(xué)系統(tǒng)往往被嵌入在需求和分布不斷變化的操作系統(tǒng)中,支持整個數(shù)據(jù)科學(xué)的生命周期是很重要的。確保管道的各個方面的魯棒性是重要的。我們需要開發(fā)新的軟件工程和計算機編程的最優(yōu)化方法。此外,古董數(shù)據(jù)儲存的時間往往比最初計劃使用更長,所以數(shù)據(jù)長期的維護和管理也必須得到解決。
以上的研究課題,以及許多其他的研究課題,都需要對系統(tǒng)、計算和機器智能方面的基礎(chǔ)研究。
此外,像在許多其他領(lǐng)域的同行那樣,計算研究人員日益成為科學(xué)數(shù)據(jù)的用戶,正如許多計算機科學(xué)的分支那樣(包括計算機體系結(jié)構(gòu)、網(wǎng)絡(luò)、軟件工程、視覺、機器人、教育和用戶建模),日益數(shù)據(jù)驅(qū)動化。保障價值和重復(fù)性方面我們需要借鑒之前的經(jīng)驗方法,包括適當(dāng)?shù)臄?shù)據(jù)管理、嚴(yán)格的系統(tǒng)建模、測量和分析,以及對結(jié)果的呈現(xiàn)和解讀的完整方法。訓(xùn)練所有的計算研究人員掌握基本數(shù)據(jù)科學(xué)技能已經(jīng)正變得越來越重要。
讓我們把眼光放得更遠,數(shù)據(jù)科學(xué)為工業(yè)界、學(xué)術(shù)界和政府之間的理論和應(yīng)用研究的創(chuàng)造性合作提供了新的機會。除了贊助研究,行業(yè)合作伙伴還可以提供有價值的見解,諸如在實際問題、數(shù)據(jù)獲取,驗證理論在規(guī)模數(shù)據(jù)或自然數(shù)據(jù)應(yīng)用的能力以及以互補的方式尋求解決方案方面。學(xué)術(shù)界,反過來,可以提供創(chuàng)新的解決方案和軟件,新的算法和替代方法的原則性分析。學(xué)術(shù)界也可以培養(yǎng)訓(xùn)練有素的數(shù)據(jù)科學(xué)骨干,滿足行業(yè)的需求,并幫助合作伙伴探索尖端研究。這些合作伙伴關(guān)系也將有助于揭示數(shù)據(jù)科學(xué)的政策問題,相關(guān)的偏見,數(shù)據(jù)隱私,知識產(chǎn)權(quán),使用適當(dāng)性和監(jiān)管問題。開放數(shù)據(jù)的提議和開源軟件運動特別適合于數(shù)據(jù)科學(xué),并將幫助使得其實現(xiàn)商業(yè)化和發(fā)揮影響??傊I(yè),學(xué)術(shù)和政府?dāng)?shù)據(jù)科學(xué)的合作將有助于推動相互協(xié)作的新的模型。
最后,雖然數(shù)據(jù)科學(xué)提供了通過提高數(shù)據(jù)利用率以提高科學(xué)研究和決策許多新的機會,這些使用也帶來了新的挑戰(zhàn)。產(chǎn)生的數(shù)據(jù)語境及其使用的應(yīng)用程序?qū)?shù)據(jù)科學(xué)的準(zhǔn)確、公平和倫理要求也十分重要。這些數(shù)據(jù)科學(xué)的相關(guān)工作需要在計算機科學(xué)的亞領(lǐng)域間以及和計算機科學(xué)的多學(xué)科之間的合作。無論是學(xué)科內(nèi)的和跨學(xué)科的技能都需要互相學(xué)習(xí)和支持。數(shù)據(jù)的產(chǎn)生和收集變得無處不在,數(shù)據(jù)所有權(quán)的概念也在發(fā)展,許多法律和政策問題將需要在此境況下被重新的考量。
為了了解如何符合倫理和負責(zé)任的使用和共享數(shù)據(jù),計算機科學(xué)家需要協(xié)同領(lǐng)域的科學(xué)家、政策制定者和倫理學(xué)家以理解相關(guān)的風(fēng)險和假設(shè)。例如,當(dāng)回答有關(guān)個人和社會的問題(例如,在教育,經(jīng)濟政策和治安)時了解數(shù)據(jù)科學(xué)背后的社會科學(xué)是很重要的。這些重要的問題包括隱私,公平和透明度。為了更好地參與和服務(wù)于數(shù)據(jù)科學(xué)相關(guān)的新興政策的探討,數(shù)據(jù)科學(xué)計算研究人員需要開發(fā)能夠兼顧道德、公平和責(zé)任的新的方法。
總之,計算研究界迎來了一個在定義和塑造新興的數(shù)據(jù)科學(xué)領(lǐng)域的獨特機遇。與統(tǒng)計人員,數(shù)學(xué)家,社會科學(xué)家,數(shù)據(jù)分析師和結(jié)構(gòu)科學(xué)家和學(xué)科專家一道,計算機科學(xué)家可以發(fā)展新的基礎(chǔ)理論,算法原則以及建立數(shù)據(jù)科學(xué)基石的系統(tǒng)。計算研究協(xié)也將致力于支持計算專業(yè)人員和其他人員為數(shù)據(jù)科學(xué)研究道德和責(zé)任的發(fā)展作出貢獻。
編譯團隊|寒小陽 owen
注:本稿件摘自數(shù)據(jù)觀入駐自媒體-大數(shù)據(jù)文摘,轉(zhuǎn)載請注明來源,百度搜索“數(shù)據(jù)觀”獲取更多大數(shù)據(jù)資訊。
責(zé)任編輯:湯德正