來源:數(shù)據(jù)觀 時間:2018-06-01 18:50:55 作者:黃玉葉
?2015年從“勵德·愛思唯爾集團”(Reed Elsevier)更名為“勵訊集團”(RELX Group)堪為不折不扣的全球出版巨頭:百余年的歷史,每年超過100億美元的營收,遍及科技、醫(yī)藥衛(wèi)生、法律、稅收及商業(yè)領(lǐng)域的專業(yè)出版業(yè)務(wù)……目前的勵訊集團已成長為世界上最大的科技、醫(yī)學(xué)、法律、商業(yè)信息服務(wù)提供商之一,在全球擁有超過3萬名員工(其中約7000名為技術(shù)人員),遍布6大洲的34個國家和地區(qū),為180多個國家的客戶提供專業(yè)服務(wù),其位列《金融時報》世界500強企業(yè),英國富時指數(shù)排名第20。
?應(yīng)數(shù)博會組委會邀請,英國勵訊集團(RELX)全球副總裁,律商聯(lián)訊(LexisNexis)首席運營官Flavio Villanustre先生出席并參與了2018中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會,數(shù)據(jù)觀記者在數(shù)博會期間對Flavio Villanustre先生進行了專訪。以下是訪談實錄。
?【數(shù)據(jù)觀】 Flavio教授,感謝您接受數(shù)據(jù)觀的采訪。作為一家全球范圍內(nèi)專業(yè)和商業(yè)客戶信息和分析服務(wù)提供商,勵訊集團是如何處理繁復(fù)龐大的數(shù)據(jù)呢?怎樣保護這些數(shù)據(jù)免于“安全問題”?
?【Flavio】 勵訊集團目前使用著15年前自主研發(fā)的大數(shù)據(jù)平臺(HPCC-高性能計算集成),并在數(shù)據(jù)和系統(tǒng)中使用了安全控制體系,一方面確保數(shù)據(jù)的安全,另一方面又保護其他人的信息隱私。我們在數(shù)據(jù)系統(tǒng)中有許多安全控制組件和功能,特別是LexID的數(shù)據(jù)標簽技術(shù),對個人信息進行驗證和標識。HPCC還提供了足夠多的數(shù)據(jù)資產(chǎn)監(jiān)控以確保如果一旦存在潛在危害,我們就可以知道這是一種攻擊行為并對此采取相應(yīng)的措施。當然,整個HPCC和Lex ID系統(tǒng)為了保護數(shù)據(jù),減少數(shù)據(jù)和個人隱私的泄露,從數(shù)據(jù)收集和產(chǎn)生之初就開始運轉(zhuǎn),在整個數(shù)據(jù)生命周期內(nèi)延續(xù)。
?【數(shù)據(jù)觀】 眾所周知,美國馬克?扎克伯格——全球最大社交網(wǎng)站Facebook的創(chuàng)始人,今年早前幾個月因為用戶信息泄露的丑聞跌入人生的谷底,此后全球很多政府、企業(yè)都采取了相應(yīng)的行動來防止重蹈覆轍,RELX對此是否有相關(guān)新動作呢?
?【Flavio】 顯然數(shù)據(jù)泄露是每個行業(yè)的弊病,畢竟當下數(shù)據(jù)如同連城之璧。業(yè)內(nèi)人士分析,數(shù)據(jù)即是新石油,它會帶來更多的財富,更有甚時直接等同貨幣。所以,這樣的“錯誤”一旦發(fā)生,就會有越來越多“首個……”的搗鬼。我們在實踐中發(fā)現(xiàn)試圖攻擊的入侵者越來越多,而且其方式和技術(shù)手段越來越高超,因為某種意義上他們可以投入更多資金來獲取數(shù)據(jù)。正如我之前說過的那樣,勵訊集團通過全面,專業(yè)的數(shù)據(jù)治理來保護數(shù)據(jù),來確保證數(shù)據(jù)信息是百分之百安全的。
?然而,即使你的信息今天確實相當安全,如果你沒有進行持續(xù)監(jiān)督,不去看所謂的威脅情報,不知道威脅區(qū)域或者破壞者正籌劃什么陰謀,再加上如果你不積極地做風(fēng)險威脅模型構(gòu)建,究其根源設(shè)身處地分析和查找問題,那你根本百分之百的確保數(shù)據(jù)的安全。所以,要把業(yè)務(wù)中的每個環(huán)節(jié)和數(shù)據(jù)情況預(yù)放到研究開發(fā)的情境下,嘗試著去思考破壞者如何設(shè)計有破壞力的“入侵”,這些“入侵”持續(xù)地且有足夠儀器監(jiān)控你的“反控制”,以掌握數(shù)據(jù)安全保護系統(tǒng)隨著時間的推移是否一直有效。
?你我可能懂得這樣的道理,這就像生活中的很多物品一樣,如果你不積極地維護它們,時間長了它們就會變得百無一用。所以你需要讓這些“管控”一直運轉(zhuǎn)著,始終確保這些安全治理控件的有效性,很多時候,我們會周期性地做“管控”測試和審計。我再強調(diào)一次,于數(shù)據(jù)信息而言,沒有完全的保證,更沒有沒有百分之百的安全。但是,你可以獲得足夠的安全保障,這將使破壞者們很難跨越數(shù)據(jù)訪問來獲取記錄。
?【數(shù)據(jù)觀】 我們贊同“數(shù)據(jù)是新石油”的說法,同時我們每個人都應(yīng)該勤于采取行動來保障數(shù)據(jù)安全。我們注意到,作為RELX的全球副總裁,您也兼任LexisNexis首席運營官,LexisNexis是RELX的一部分,它為保險行業(yè)提供了各種數(shù)據(jù)和分析服務(wù),這部分的年收入超過了1億美元,這是一個了不起的業(yè)績,您愿意分享一下LexisNexis是如何使用大數(shù)據(jù)技術(shù)為保險客戶服務(wù)的嗎? 你們?nèi)绾巫龀鼍珳实慕鉀Q方案或風(fēng)險預(yù)測?
?【Flavio】 這個問題問得相當好。遺憾的是答案很長,因為我要深入地談到勵訊集團保險行業(yè)解決方案。在保險整個周期中有很多環(huán)節(jié),都是圍繞保險業(yè)務(wù)全流程的需求設(shè)計和提供的,同時還要清楚哪些顧客。勵訊集團是依據(jù)大數(shù)據(jù)、數(shù)據(jù)關(guān)聯(lián)和分析,以及對保險行業(yè)的深度認知來提供針對每個保險環(huán)節(jié)的解決方案。從而有效地幫助保險公司獲客,提高保險公司的收益、制定有效的保險業(yè)務(wù)策略和防范保險欺詐。
?當然,保險業(yè)有一個有趣現(xiàn)象,至少在美國是這樣,在全世界也都相當普遍:保險公司現(xiàn)在處在非常艱難的時期,因為他們有大量的線上競爭者。現(xiàn)如今,消費者并不一定會直接與自己所在城鎮(zhèn)的保險代理人建立聯(lián)系,他們隨便上個網(wǎng)也可以得到至少50家保險公司的報價。所以這對保險公司來說非常關(guān)鍵——知道風(fēng)險所在并加以正確引用,因為如果叫價太高,客戶就會選擇另一家保險公司。然而如果叫價太便宜,他們則會賠錢,因為保單太冒險了。
?所以我們在自己的大數(shù)據(jù)平臺上建立了大量解決方案,這是一個我們稱之為HPCC系統(tǒng)開源平臺的模式,我們使用這個平臺來整合龐大而繁復(fù)的數(shù)據(jù),通過平臺集成數(shù)以萬計的數(shù)據(jù)源。對于保險中的每一個階段,我們提供了具體的解決方案,例如,從一開始圍繞市場營銷的解決方案。
?因此,他們可以更好地為潛在客戶在最短的時間,提供合適的報價。客戶通過填寫表格來要求保險公司報價,我們?yōu)楸kU行業(yè)提供保單預(yù)填的解決方案,使他們能夠更快更準的獲客。這種服務(wù)不需要客戶全部手動輸入信息,他們只需輸入2到3個關(guān)鍵詞,其余信息則會自動顯示出來。
?隨著技術(shù)和公司業(yè)務(wù)的發(fā)展,為了提高我們評估風(fēng)險的能力和水平,勵訊集團建立了機器學(xué)習(xí)(AI)模型,用模型統(tǒng)計來確定特定保單損失和獲客可能性,這樣可以幫助保險公司評估特定保險單的合適價格,也可以用來檢驗是否存在保險欺詐行為,損失追溯。例如,有人說他出了車禍,確實是投保人發(fā)生了事故。保險公司賠償損失后,是否還有可能追溯賠償?shù)膿p失嗎?商務(wù)實踐中確實有這樣的例子:某些心懷不軌的人會制造事故來牟利,而他們不是真正的受保者。因此,我們所做的就是——確保保險公司能夠依靠足夠多的正確信息來做出判斷,決定是否賠償,這是關(guān)鍵。幾年前我們就使用機器學(xué)習(xí)從非常大的非結(jié)構(gòu)化數(shù)據(jù)池中提取信息并進行分析,創(chuàng)建圖表并預(yù)測欺詐事件。這項工作讓我們在過去的三十年里有了長足發(fā)展,一躍成為世界第一的信息服務(wù)提供商。
?【數(shù)據(jù)觀】 感謝您如此精道的闡述,我們豁然開朗。業(yè)內(nèi)有一個說法是“強大的系統(tǒng)必然使公司強大”,想必數(shù)據(jù)處理是RELX的關(guān)鍵日常,您能為中國讀者分享一下你們強大的引擎(數(shù)據(jù)處理系統(tǒng))嗎?。
?【Flavion】 我樂意至極。這個問題可以追溯到2000年,大數(shù)據(jù)技術(shù)還沒有被稱為“Big Data”的時候,我們?yōu)闈M足自身使用而開發(fā)并建立了一個HPCC系統(tǒng)的大數(shù)據(jù)平臺,該系統(tǒng)用于大數(shù)據(jù)開源處理和分析、大規(guī)模并行處理的計算平臺。HPCC是我們整個集團一直在使用的核心技術(shù)的一部分,我們的每一個產(chǎn)品,每一項服務(wù)都建立在這個平臺之上。在處理復(fù)雜模型,并需要擴展,以應(yīng)用于大規(guī)模數(shù)據(jù)和多樣化的數(shù)據(jù)集(結(jié)構(gòu)化和非結(jié)構(gòu)化)時,這一平臺給我們帶來了優(yōu)勢。在HPCC平臺之上,我們以域?qū)S谜Z言的形式設(shè)計了自己的域?qū)S贸橄笳Z言,例如復(fù)雜的記錄鏈接工具——“可擴展自動鏈接技術(shù)”,以及將圖像分析與機器學(xué)習(xí)能力相結(jié)合的“知識工程語言”。
?在2011年,我們將整個大數(shù)據(jù)平臺推出,成為一個自由開放的資源平臺供其他人使用,目的是通過在其背后聚集一個更大的開源社區(qū),繼續(xù)發(fā)展、壯大、延續(xù)這種血脈。這讓我們在整個過程中有了很大的創(chuàng)新。再者,從2011年,也就是七年前開始,其他平臺都實行免費制,開放源碼是許可或者完全許可的。你也許會問:任何人都可以使用它嗎?任何人都能開發(fā)嗎?答案是肯定的。這個平臺為企業(yè)提供大數(shù)據(jù)處理能力,利用可疊加計算集成組及公共云對大數(shù)據(jù)進行復(fù)雜的處理,或者像我們一樣集成所有數(shù)據(jù)。某種程度上,這是難以在一個跨集群的機器環(huán)境中實現(xiàn)的。
?我們有一個核心流程,適用于整個業(yè)務(wù)范圍——數(shù)據(jù)清洗與關(guān)聯(lián)。包括所有的保險業(yè)務(wù),正如我之前提到的,我們需要成千上萬的數(shù)據(jù)源,我們整合,利用所有的數(shù)據(jù)建立圍繞單個個體的單一數(shù)據(jù)源,這些數(shù)據(jù)來自不同的源頭。很多時候,不同的數(shù)據(jù)集不一致,也許你會發(fā)現(xiàn)一些數(shù)據(jù)記錄某個你認識的人居然成了別人,或者他生活在一個與你認知不同的地址,我們可以通過這種方式來識別和區(qū)分事實查缺補漏。那些自動丟失的倒置是關(guān)鍵點,我們談?wù)摰氖菙?shù)萬億的數(shù)據(jù)集,數(shù)千億的數(shù)據(jù)記錄。
?這樣做的唯一方法就是建立機器學(xué)習(xí)。這是主要的機器學(xué)習(xí)算法,是基于概率數(shù)據(jù)推理的人工智能,它從數(shù)據(jù)中獲取信息并試圖計算出某些事物間相似的可能性。從本質(zhì)上說,如果你獲得了兩個數(shù)據(jù)記錄,它們都給你同一個姓和名,那么這兩個記錄指的是同一個人。通過經(jīng)驗判斷,你知道答案可能是正確的。如果姓和名都非常獨特,但是給出的姓名記錄卻很常見,那么它很有可能是錯誤的。
?因此,在HPCC系統(tǒng)平臺上運行的很多程序都能識別這種可能性并確定最終結(jié)果。以至于后來那些保單上的人對于賠償?shù)囊蓱],最后都通過實體定義可以得知哪些情況符合保單協(xié)議里的屬性,通過社交架構(gòu)關(guān)聯(lián)實體和屬性來完成。
?這給了我們一種了解世界的獨特方式,同時也能提出問題。現(xiàn)在你可以說,這又回到了我們的汽車事故的例子:任何階段都有可能發(fā)生事故,事故起因不同,而投保的人也不一樣。但是針對欺詐案,如果你能把那些日期放在社交架構(gòu)上,你可能會發(fā)現(xiàn)每一個事故都和其他的線索聯(lián)系在一起,就整個家族來說,這些人都是有親戚關(guān)系的人,這就為你提供了一個很重要的證據(jù)。要么是這個家族運氣夠倒霉,每一次都有事故發(fā)生,要么就是他們?yōu)榱藦谋kU公司獲利而欺詐。
?我們使用機器學(xué)習(xí)來描述企業(yè)和個人的整個網(wǎng)絡(luò),以識別詐騙團伙,該技術(shù)還可以用來評估和預(yù)測信用和保險風(fēng)險,識別醫(yī)療保健相關(guān)交易中的欺詐,并幫助抓到犯罪分子。機器學(xué)習(xí)是我們所做的一切的核心。
?【數(shù)據(jù)觀】 您的回復(fù)令人印象深刻,即便我不是專業(yè)讀者,我也想說您的這套系統(tǒng)真真是棒極了。時下,AI技術(shù)風(fēng)靡全球,RELX是否在做相關(guān)研究或者開發(fā)了嵌入式應(yīng)用程序呢?AI對于您這樣的公司而言會形成一種威脅嗎?
?【Flavio】 是的,我們在人工智能方面還算活躍,詳談前,我覺得有必要重新定義下AI的概念。AI有兩種類型,一種是未來人工智能,某種意義上來說,即機器學(xué)習(xí)或全民學(xué)習(xí);另外一種叫AGI(人工總體智能 Artificial general intelligence),這是一種簡單的機器,這就像《終結(jié)者》,盡管很多組織都在積極研究探索AGI,但我們暫無涉足。
?我們尚處在一個初期階段,所以討論AGI這種能夠獨立思考的機器還為時尚早。但是AI作為一種實用的智能,它能給你的智能語音賦能,使你的自動翻譯系統(tǒng)、世界搜索引擎或其他設(shè)備變得人性化。這是我們正在積極使用的,同時我們也研究了一些最基本的算法,也就是眾所周知的關(guān)系金原子,我們利用它們來建立自己的風(fēng)險預(yù)測系統(tǒng)。
?一個人在很長一段時間內(nèi)違約的風(fēng)險是什么,這個司機發(fā)生事故的可能性是多少?我們可以用它來做一些我們稱之為“行為”的事情。作為保險服務(wù)的一部分,我們已經(jīng)取得了勝利,讓司機在手機上使用一個APP為他們的“行為”做準備?;诖耍麄兛梢宰C明自己是安全的司機以得到更優(yōu)惠的保險價格。
?有趣的是,這只適用于當前駕駛?cè)藶槟阕约旱臓顟B(tài)。但是當你坐上朋友開的車情況又會如何呢?所以這個系統(tǒng)會計算出你的駕駛畫像,它會判斷出你現(xiàn)在是在公共汽車、小轎車、出租或者在火車上,那就不是你而是別人在駕駛。所有這一切的人工智能現(xiàn)在更趨于傳統(tǒng)回歸模型,就像我一直強調(diào)的深度學(xué)習(xí)那樣利用各種技術(shù)想努力達成,在某種程度上,它們模擬大腦皮層的工作方式,通過構(gòu)建人工神經(jīng)元網(wǎng)絡(luò)來進行運算。
?為了更高效地學(xué)習(xí)特定的東西,在AI的傳統(tǒng)算法和機器學(xué)習(xí)中,你通常有樣本或標簽數(shù)據(jù),從本質(zhì)上講,過去的事情都有結(jié)果。如果你正在嘗試訓(xùn)練一種可能發(fā)生的事故風(fēng)險模型,你可以用你過去事故信息來訓(xùn)練模型。
?在每一個案例中,所有的數(shù)據(jù)都附加了事實,通過來自過去的數(shù)據(jù)即知曉這些人確實發(fā)生了事故,這些人有共同特征,并與各種保險事故聯(lián)系在一起,這就是機器學(xué)習(xí)系統(tǒng)可以反映出來的東西,這個人工智能系統(tǒng)可以用來最終創(chuàng)建一個不在我標簽數(shù)據(jù)里的新客戶的風(fēng)險預(yù)測。
?機器學(xué)習(xí)改變了一切,讓計算機提取這些事實,并通過基于統(tǒng)計方程的模型來表示現(xiàn)實。這極大地節(jié)省了域?qū)<业臅r間,使他們能夠使用人類采用其他方法很難處理的數(shù)據(jù)集。所得到的計算機程序更簡潔,更易于實施,更高效。
?深度學(xué)習(xí)允許你用更少的標記數(shù)據(jù)的樣本構(gòu)建模型。你可以建立相當有效的模型。我們只有很少的標簽數(shù)據(jù)樣本,但這非常有用,它們還可以幫助你更容易地識別數(shù)據(jù)結(jié)構(gòu)。當你試圖進行欺詐分析和異常檢測時,它的作用就大了。
?我們還與世界各地的大學(xué)進行了大量的研究,因為這個平臺是開源的,它可以幫助開發(fā)一些模型拓寬領(lǐng)域。當然,任何開發(fā)出來的東西都是重新開放的,因此人們可以從中受益,它幫助我們突破極限,變得越來越好。
?【數(shù)據(jù)觀】 從剛才的談話中我們獲得了三個概念——“人工智能”、“深度學(xué)習(xí)” 和“機器學(xué)習(xí)”,某些時候人們會有所混淆,您能給出者三者之間的簡要區(qū)別嗎?
?【Flavio】 沒關(guān)系,我來給大家解釋一下。機器學(xué)習(xí)相當簡單,有兩種方法來定義機器學(xué)習(xí)。其一是在傳統(tǒng)的算法和傳統(tǒng)的程序中,程序員通過手工定義每一個身份。在機器學(xué)習(xí)中,你給機器數(shù)據(jù)讓它們從數(shù)據(jù)中學(xué)習(xí),這聽起來很復(fù)雜,但事實上沒有那么難懂。這是一個線性模型,只是機器學(xué)習(xí)技術(shù)中的一種。
?想象一下,我給你一個房子或公寓的價格,你可以去看所有的報紙,然后拿到過去10年里你所在城市的房屋銷售價格。你只需要看一個變量,那就是公寓的大小,如果有一套一百平方米的公寓,它值一個價錢,而我有一套200平方米的公寓,也是這個價錢,你把這些數(shù)據(jù)畫到一張紙上,X軸代表公寓的面積,Y軸代表價格。很快你就會發(fā)現(xiàn)這套更大的公寓在價格上具有優(yōu)勢?,F(xiàn)在你可以在你的曲線上取號查詢,給出一個大概價格來做估算和預(yù)測,這是最基本的機器學(xué)習(xí),更多的機器能做出更驚人的統(tǒng)計和概率計算。對于你不確定的情況,它通過接收過去的信息,應(yīng)用統(tǒng)計學(xué)計算出概率,這就是所謂的引導(dǎo)性學(xué)習(xí)。
?在機器學(xué)習(xí)之前,通過算法進行建模時,要求人們了解特定的問題域,從現(xiàn)有數(shù)據(jù)中提取事實,并編寫大的“啟發(fā)式”程序,使用條件規(guī)則對輸入數(shù)據(jù)不同的可能結(jié)果進行建模。這些早期的系統(tǒng)需要專家篩選數(shù)據(jù)以理解現(xiàn)實,并通過計算機可以理解的條件語句來描述它。這是非常乏味、辛苦的工作,最好留給計算機去做。
?當我們談到深度學(xué)習(xí)的時候,這和程序基本部分的區(qū)別是一樣的,不再只是基本算法,它們與神經(jīng)元的工作方式更密切相關(guān),這些神經(jīng)元有許多輸入和一個輸出單元,輸出是所有輸入的函數(shù)。
?舉個例子,如果所有輸入不是悲傷就是哀愁,那么輸出的不是貪婪就是怨恨。如果在某種程度上對輸入進行減法,輸出1或者零輸入,我們就不會自尋煩惱了。如果你把這些毫無連接的神經(jīng)元用相同方式連接起來,就有可能建立起一個非常復(fù)雜的系統(tǒng),可以從數(shù)據(jù)中進行自我學(xué)習(xí),就像你在公寓面積和價格上使用的那個小算法一樣,現(xiàn)在我們在很多維度中都有學(xué)習(xí)。
?這就是所謂的監(jiān)督學(xué)習(xí)。你給它數(shù)據(jù),它給你數(shù)據(jù)結(jié)構(gòu)的提示,一旦你得到結(jié)果,可以在這里做標簽。如果我給你看這張照片,它是什么?你也許會說,這是一個小男孩,那如果我再給你看這張照片,它其實就是一個手機。如果我用機器來做回答,機器會告訴我這張圖片的類別,一類或二類。加上標簽,我可以說一加一是男孩,一加二是手機。就像你教嬰兒說話一樣,你也可以教機器。今天市場上的語音助手中,諸如谷歌一類的性能都不錯,這些大多利用了人工智能系統(tǒng),還可以進行自動翻譯或引擎搜索,更有甚者借助這樣的系統(tǒng)在互聯(lián)網(wǎng)上尋貓,它們深受歡迎。但它更像是未來。在學(xué)習(xí)中仍有很多積極的研究,某種意義上說,將來必會成為流行趨勢并在全球范圍內(nèi)成為最大的挑戰(zhàn)目標。就像我給你們的第一個,關(guān)系模型,很簡單,讓你們可以很容易地解釋。如果我問你,這個房子哪里值得我花錢,在你能解釋之前我又沒見過,我就出兩千美元。但是由于那幅涵蓋房子的面積和價格的曲線軸,現(xiàn)在我們可以清楚地估測價格。
?在深度學(xué)習(xí)網(wǎng)絡(luò)中,這是很難做到的。管道網(wǎng)絡(luò)又稱自然隨機性,意味著它們的不確定性。當你從頭開始建立一個網(wǎng)絡(luò)時,如果你把所有的神經(jīng)元都放在一個基準零點,現(xiàn)在你想要擊退它,那你就什么都學(xué)不到。它學(xué)習(xí)的唯一方法是給隨機物體的神經(jīng)元發(fā)出第一個隨機噪聲,完全隨機意味著沒有簡單的方法可以追溯。這是當今最大的挑戰(zhàn)之一,需要一段時間來達到成熟。
(數(shù)據(jù)觀 黃玉葉)
責(zé)任編輯:陳近梅