來源:THU數(shù)據(jù)派 時間:2017-09-15 10:32:37 作者:
近日,2017國際大數(shù)據(jù)產(chǎn)業(yè)技術(shù)創(chuàng)新高峰論壇在清華大學(xué)成功舉辦。論壇邀請了政府、學(xué)術(shù)界和產(chǎn)業(yè)界與大數(shù)據(jù)有關(guān)的嘉賓齊聚一堂,通過大數(shù)據(jù)系統(tǒng)軟件技術(shù)的跨界合作與國際交流,建立和完善大數(shù)據(jù)領(lǐng)域的技術(shù)創(chuàng)新平臺,集聚整合創(chuàng)新資源,加強“產(chǎn)學(xué)研用”結(jié)合,共同探討大數(shù)據(jù)系統(tǒng)軟件的發(fā)展現(xiàn)狀和未來方向。
本文節(jié)選于百度副總裁、百度AI技術(shù)平臺體系總負責(zé)人兼百度研究院院長、國際計算語言學(xué)協(xié)會(Association for Computational Linguistics)前主席王海峰先生在本屆高峰論壇的主題演講《百度人工智能》,演講精華內(nèi)容經(jīng)數(shù)據(jù)派THU整理如下:
人工智能是第四次工業(yè)革命
從18世紀開始,隨著技術(shù)的發(fā)展,以及需求的牽引,人類逐漸開始進入技術(shù)革命或工業(yè)革命。歷史上的工業(yè)革命有三次,可以大致歸納為第一次機械化革命、第二次電氣化革命和第三次的信息化革命,而第四次工業(yè)革命則是以智能化——人工智能(Artificial Intelligence,英文縮寫為AI)——為標志的。
回顧一下人工智能的發(fā)展歷史,正式的起點是1956年的達特茅斯會議,誕生了AI這個概念。而在1956年之前,已經(jīng)出現(xiàn)了至今仍然很熱門的一些人工智能方向,例如機器翻譯、自然語言處理、計算機下棋、神經(jīng)網(wǎng)絡(luò)等等。而從AI誕生以來的60多年,人工智能的發(fā)展起起落落,從下面的圖中可見一斑。
過去10年,隨著深度學(xué)習(xí)的出現(xiàn),更重要的是“數(shù)據(jù)井噴”,以及數(shù)據(jù)支撐的算法和計算能力的突破,尤其是在語音、圖像等領(lǐng)域,人工智能再次迎來了發(fā)展的新機遇。而這一次的復(fù)興即將帶動整個社會產(chǎn)生深層次的變革,這是我們已經(jīng)可預(yù)見的未來。這次人工智能的爆發(fā),在很大程度上是從互聯(lián)網(wǎng)開始的,而互聯(lián)網(wǎng)帶來了很多需求,包括搜索、社交、購物等等。這些需求越來越多的線上化,同時帶動了數(shù)據(jù)的線上化。
數(shù)據(jù)真正線上化以后,也帶動了更多的算法去處理這些數(shù)據(jù),而需求和數(shù)據(jù)的在線化也帶動了整個生態(tài)的活躍,進而使越來越多的數(shù)據(jù)開放出來,依托更強大的計算平臺,結(jié)合更好的AI算法,實現(xiàn)計算能力的突破。比如現(xiàn)在大家常用的GPU,利用深度學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)算法,就有非常強大的優(yōu)勢。大數(shù)據(jù)、算法和大計算這三者儼然成為了人工智能復(fù)興的必要條件。
百度人工智能已經(jīng)揚帆起航
百度從做搜索開始,人工智能的研究和發(fā)展已經(jīng)有十幾年了,如自然語言處理基礎(chǔ)的分詞、短語分析等。而全面布局人工智能大概是在七、八年以前,逐步從NLP、語音、機器學(xué)習(xí)、圖像等方面開始,時至今天,百度已經(jīng)形成了一個較完整的人工智能技術(shù)布局,包括基礎(chǔ)層、感知層、認知層、平臺層、生態(tài)層和應(yīng)用層,共計六層。
數(shù)據(jù)、算法和計算平臺是基礎(chǔ)。感知層對應(yīng)人的視覺、聽覺,這些能力是直接感知外界。認知層對應(yīng)的是人類區(qū)別于其他生物特有的,比如人的語言能力、人類對知識的總結(jié)、理解、提煉、運用等等,以及對人的理解。AI的開放平臺不僅支持百度內(nèi)部的應(yīng)用還支持所有的合作伙伴,現(xiàn)已開放了60多個能力,在公司內(nèi)部,每天大概有幾千億的調(diào)用量,而在外部也有數(shù)以億計的調(diào)用。在此基礎(chǔ)上,百度希望跟所有各行各業(yè)的合作伙伴一起打造技術(shù)的平臺,形成良性循環(huán)的生態(tài),從而生長出各種各樣的創(chuàng)新應(yīng)用。
百度從做互聯(lián)網(wǎng)To C(針對消費者)的產(chǎn)品到開始做大量支持To B(面向企業(yè)服務(wù))的應(yīng)用。這些都依賴于人工智能技術(shù)布局的實現(xiàn)。下面將對每層技術(shù)布局的關(guān)鍵技術(shù)展開說明。
一、基礎(chǔ)層:大數(shù)據(jù)、算法和大計算
現(xiàn)在每一個人每一天會產(chǎn)生非常多的數(shù)據(jù),如個人的行為、生理狀態(tài)的變化,如果要監(jiān)測、記錄的話,都有非常龐大的數(shù)據(jù)。況且,每一個人每天都在跟互聯(lián)網(wǎng)打交道,或者是自己建網(wǎng)站,或者向網(wǎng)上貢獻數(shù)據(jù),甚至在使用互聯(lián)網(wǎng)過程中,也會產(chǎn)生很多數(shù)據(jù)。一定程度上,互聯(lián)網(wǎng)已經(jīng)成為整個客觀世界的鏡像。所以,掌握好、利用好、分析好這些互聯(lián)網(wǎng)數(shù)據(jù),在很大程度上也是對客觀世界很重要的刻畫和理解。
總體上,大數(shù)據(jù)技術(shù)分為幾個方面,比如數(shù)據(jù)的采集、提煉以及應(yīng)用。如果對一個零售商店數(shù)據(jù)里的用戶進行建模,某一個用戶可能是白領(lǐng),另一個是主婦,這樣的行業(yè)數(shù)據(jù)經(jīng)過分析就可以幫助商戶更好地進行營銷行為。另一方面,百度基礎(chǔ)的計算載體是數(shù)據(jù)中心,有20多個大型的數(shù)據(jù)中心,不只是在中國,在世界各地都設(shè)立了大數(shù)據(jù)中心,也有國內(nèi)最大的GPU集群,有非常強的帶寬和吞吐能力,還有像集裝箱一樣,模塊化的計算中心。
二、感知層:語音、圖像、視頻、AR/VR
語音技術(shù)的突破有很多方向,如識別、合成和喚醒,這是我們現(xiàn)在比較看重的,因為市場應(yīng)用的需求很大。比如語音識別,已經(jīng)達到97%以上的準確率?,F(xiàn)在隨著人工智能應(yīng)用的深入,在家居場景、車載場景等等,越來越多的語音識別不是對著麥克風(fēng)說,而是要有一定距離,這就涉及到遠場的語音識別。這與現(xiàn)在手機上的麥克風(fēng)不一樣,首先會有定位,還有一系列新的技術(shù)待解決。合成想做得非常好,特別自然、流暢,而且可以是個性化的,包括把人的情緒變化等都帶進去,就變得非常難。
這里不只是語音和聲學(xué)信號處理問題,同時涉及到對語言的理解、對人的理解,這樣才能做出有情緒、個性化的合成。喚醒,是需要設(shè)備的時候就叫一聲,它就知道你要跟它說話,比如家居場景的一個智能音箱或者智能電視,這時候就需要喚醒技術(shù)。喚醒技術(shù)的困難在于我們要控制誤喚醒,比如在家里放一個智能音箱,如果不叫它的時候,忽然之間它自己就跳起來了,或者睡覺的時候,有點外界噪音,它就忽然跳起來,體驗會很差。所以,控制住誤喚醒很重要也很有挑戰(zhàn)。
圖像方面,人臉識別是計算機視覺的一個重要方向。人臉分為靜態(tài)和動態(tài)。靜態(tài),如一張圖片,檢測里面有沒有人臉,或者有兩張照片,比對一下兩處出現(xiàn)的是不是同一個人,這方面的準確率已經(jīng)很高了。而識別動態(tài)圖像的時候更復(fù)雜一點,比如有一段視頻,首先要定位這些人臉,而這里會產(chǎn)生很多應(yīng)用,比如在很長的視頻流里找到一個人。
另外,我們可以對圖像進行識別匹配,做語義的標注,粒度很細,如一幅圖里很具體地找到其中一個部分是什么,這里可以做很多細粒度的圖像識別。OCR是圖像識別里相對具體的方向,如清華也有OCR方向做得非常好的老師和課題組。現(xiàn)在OCR技術(shù)不僅可以掃描書,更可以識別一個表格或者一個很復(fù)雜的結(jié)構(gòu),如發(fā)票,不但把里面的文字識別出來,還可以把一個區(qū)域識別出來的文字結(jié)構(gòu)化,整體上會做很多定制化的識別。
視頻不同于圖像有很多權(quán)威的數(shù)據(jù)集,視頻數(shù)據(jù)集本身還不夠成熟。視頻很多是人工標注好的,比如標題、內(nèi)容,但是還有很多視頻人工標注不夠完善,這時候就需要視頻語義理解技術(shù)把這個視頻標注出來,包括這個視頻到底是哪一類,視頻的標題,如果相對長的視頻,就把其中亮點怎么樣也摘錄出來。
機器人視覺涉及到怎么樣做定位,做地圖的重建,包括檢測障礙物等等。領(lǐng)先的SLAM技術(shù),有很多算法。前面講的圖像和視頻技術(shù),在機器人視覺里都會有應(yīng)用。增強現(xiàn)實(AR/VR)是一個獨立的方向,但是跟視覺技術(shù)有很多關(guān)系,通常拍一個照片,會觸發(fā)出增強現(xiàn)實的效果,相應(yīng)地會涉及到三維感知、跟蹤、渲染等技術(shù)。
三、認知層:自然語言處理、知識圖譜和用戶畫像
自然語言處理的范圍廣泛,如果細分的話,有很多子領(lǐng)域,較宏觀地可劃分為語言的理解和生成,以及相應(yīng)的應(yīng)用系統(tǒng)。一方面要理解人的語言,另一方面要表達,能生成語言。比如,基本的分詞、短語分析,核心的解決思路就是做句法的分析和語義的理解或意圖的理解。如搜索“想去一家寵物醫(yī)院,醫(yī)院附近要有停車位”。這是人的一種自然的表達,如果讓計算機能夠理解,就要把意圖提取出來,從很復(fù)雜的話中分析出其核心意圖,然后再去找相應(yīng)的答案。
圖示:用傳統(tǒng)信息檢索和搜索算法搜索“蔣英的女兒是誰”和“蔣英是誰的女兒”,會找到同樣的答案,因為傳統(tǒng)的信息檢索是不管語序的。這時候我們就要做真正的自然語言分析和理解,知道它們實際上是在找不同的答案。這背后是知識圖譜的支撐,大家可以看到結(jié)構(gòu)化的圖文并茂的結(jié)果。
我們看一篇文章、一本書,這時候不僅僅是理解其中每一句話,而是對整篇文章有一個理解,就是篇章的理解。篇章的理解,可以把整個篇章打上主題標簽,打上各種實體標簽,而這些對計算機來講就是理解了這篇文章。在應(yīng)用時,為了不同的應(yīng)用,標簽會有不同的形式,如用在資訊流里,打上這些標簽以后,就可以匹配用戶的興趣,從而推薦給用戶一篇他可能感興趣的文章。
除了理解句子、篇章、文字以外,人寫一句話、寫一首詩亦或?qū)懸黄恼?,都是帶有情感傾向的,所以相應(yīng)地,我們也做情感傾向的分析,包括用戶看了一篇文章以后,下面有很多評論,這些評論本身我們也會做觀點的抽取。
除了分析、理解以外,還有生成。我們嘗試過寫詩、寫對聯(lián)等,比如在手機百度信息流里看到的文章,很多都是人寫的,但也有很大一部分是機器自動寫成的。我們做過各種測試,用戶基本上分辨不出來到底是人寫的還是機器寫的,這說明機器寫的還是很不錯的。其次,人要與智能硬件展開交互,對話過程中涉及到對“人說的話”的理解和預(yù)測人如何說下一句話,相當(dāng)于理解和生成兩方面都在用,這里面就是對話管理以及交互的技術(shù)。
到目前為止,我們講的都是一種語言,都是中文,但“百度翻譯”是解決多語言問題的,在28種語言之間互譯,互譯的方向大概是700多個,每天有過億次的翻譯請求。同時也結(jié)合了語音技術(shù)、視覺技術(shù),延伸出了語音會話翻譯、拍照翻譯等等應(yīng)用。
人類幾千年傳承下來的知識,是人類能一步一步不斷向前進步的原動力,而做這些知識的累積和傳承很重要的載體是知識圖譜,知識圖譜里面一些基本的單位,如實體,現(xiàn)在我們的知識圖譜已經(jīng)有幾億個實體,每個實體會有很多屬性,實體與實體之間也會有很多關(guān)系,這些關(guān)系就構(gòu)成很多事實,如A和B兩個人可能是老師和學(xué)生的關(guān)系,這就是一個事實,我們已經(jīng)積累了幾千億事實。
知識不只是靜態(tài)的存取,而且涉及到知識計算和推理。比如,離圣誕節(jié)還有多少天,系統(tǒng)知道今天是哪一天,圣誕節(jié)是哪一天,系統(tǒng)會以此動態(tài)做一個計算。再比如,民航有一些規(guī)章,基于這些規(guī)章問一個問題,能不能“帶打火機上飛機”,系統(tǒng)會根據(jù)這些規(guī)章的規(guī)則,判斷這個問題的答案是“是”還是“否”。其次,我們要了解用戶本身的需求,所以對用戶畫像也是非常重要的方向?,F(xiàn)在百度積累了非常豐富的用戶畫像,有非常多細分的標簽,如一個人可以從人口屬性、行為習(xí)慣、長期興趣、位置、短期意圖等五個維度去刻畫,形成初級的用戶畫像,構(gòu)建個體模型。
四、平臺以及生態(tài)層
這一層更多集中在百度大腦(ai.baidu.com),完整的生態(tài)包括云和端兩大部分。百度云是很大的計算平臺,不只是百度可以用,而且開放給所有的合作伙伴,變成基礎(chǔ)的支撐平臺,上面有百度大腦的各種能力。同時還有一些垂直的解決方案,比如基于自然語言的人機交互的新一代操作系統(tǒng),以及與智能駕駛相關(guān)的Apollo。整車廠商可以調(diào)用其中他們需要的能力,汽車電子廠商也可以調(diào)用他們需要的相應(yīng)能力,大家共建整個平臺和生態(tài)。
五、應(yīng)用層
語音搜索,是典型的在搜索上引入一些AI能力之后的產(chǎn)品形態(tài),這里不是一個“語音識別+簡單的搜索”,而是我們直接語音輸入我們想要的字的時候,如果出現(xiàn)多音字,如儷、莉,就會出現(xiàn)錯誤,但如果用戶說:“茉莉的莉”,語音糾錯就會自動修改成“莉”,然后找到用戶最終想要的答案。所以這就需要很多相關(guān)技術(shù)的支持。圖像搜索也是,我們做了很多圖像搜索相關(guān)的嘗試。
例如,找題很困難,很多學(xué)生做題,題里有圖、有公式,想把內(nèi)容輸入進去就很難,所以拍照就變成特別方便的方式,這里就會結(jié)合OCR的技術(shù),對圖像做識別。智能問答、個性化推薦等同樣是綜合了多種AI能力,如知識圖譜、NLP、用戶理解等,把答案或資訊更直觀、更有針對性地展現(xiàn)給用戶。除了互聯(lián)網(wǎng)應(yīng)用,我們也在嘗試AI能力與各行各業(yè)的結(jié)合,如智能客服、智慧機場等。
人工智能正在成為這個時代技術(shù)變革的核心驅(qū)動力,AI在To B領(lǐng)域的滲入將會給各行各業(yè)帶來革命性的改變,也會對人們的日常生活產(chǎn)生巨大的影響。人工智能應(yīng)用廣泛,其實際作用絕不僅僅在互聯(lián)網(wǎng),就像我們已經(jīng)很難想象任何一個行業(yè)離開電該如何運轉(zhuǎn)一樣,人工智能也會是新時代的電力。
可以預(yù)見,人工智能必將無處不在。
以下為PPT全文:
責(zé)任編輯:陳近梅