來源:數(shù)據(jù)觀-自媒 時間:2017-03-27 15:44:46 作者:THU數(shù)據(jù)派-鄭順
姚期智先生引言:非常榮幸來給大家介紹今天的演講嘉賓!大家一定還記得去年的一個大事件—— AlphaGo 在圍棋上戰(zhàn)勝了人類冠軍。圍棋被認(rèn)為是人類智力競賽的王冠,而 AlphaGo 背后的最重要的技術(shù)就是深度學(xué)習(xí)。今天的演講嘉賓就是深度學(xué)習(xí)方面的專家 LeCun。
LeCun 現(xiàn)任 Facebook AI 研究院院長,同時他也是美國紐約大學(xué)的終身教授。他的研究興趣包括機(jī)器學(xué)習(xí)、計算機(jī)視覺、移動機(jī)器人以及計算神經(jīng)學(xué)等。他因著名且影響深遠(yuǎn)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)相關(guān)的工作而被人稱為 CNN 之父。
LeCun 演講梗概
LeCun 演講內(nèi)容跨度數(shù)十載,從最早追溯到 1957 年神經(jīng)科學(xué)的監(jiān)督學(xué)習(xí)談起并對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練做了一個基本的介紹。接著 Lecun 重點講解了他的成名作——卷積神經(jīng)網(wǎng)絡(luò)(CNN),還給大家展示了錄制于 1993 年的珍貴視頻——年輕的 LeCun 在一臺 486 PC 上編寫的光學(xué)字符識別系統(tǒng)。
不知那時候還在攻讀博士的 LeCun 是否想到他的研究成果在隨后的二十年給整個世界帶來的巨大影響和翻天覆地的變化。然而,在當(dāng)時的環(huán)境下,并不是所有的人都相信神經(jīng)網(wǎng)絡(luò)技術(shù),更多的人傾向于一些有理論保障的機(jī)器學(xué)習(xí)方法,比如 kernel machine 等。
LeCun 給大家展示了他在 1995 年所見證的兩位機(jī)器學(xué)習(xí)前輩 Jackel 和 Vapnik(當(dāng)時他們都在貝爾實驗室,Jackel 是 Vapnik 的上司)的兩個有趣賭局:第一個賭局中,Jackel 聲稱最遲到 2000 年我們就會有一個關(guān)于大的神經(jīng)網(wǎng)絡(luò)為什么有效的理論解釋,當(dāng)然隨后的歷史證明他輸了;第二個賭局中,Vapnik 聲稱最遲到 2000 年沒有人將會繼續(xù)使用 1995 年的這些神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(意思是大家都會轉(zhuǎn)而使用支持向量機(jī) SVM,Vapnik 是 SVM 的發(fā)明人之一),結(jié)果 Vapnik 也輸了。
不僅在 2000 年,大家依然在用,直到今天,在結(jié)合了大數(shù)據(jù)與強(qiáng)大計算能力后,這些古老的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)迸發(fā)出更加巨大的能量。這個深度學(xué)習(xí)史上有趣的八卦,我們?nèi)缃衤爜韰s也不勝唏噓。技術(shù)的發(fā)展往往是螺旋式且兼具跳躍性,實在難以預(yù)料。正如今天的我們在清華的大禮堂里與 LeCun 一起暢想著深度學(xué)習(xí)與人工智能的未來,卻不知十年、二十年后我們又在哪里用什么樣的視角來看待今天的自己。
技術(shù)干貨
盡管未來是如此的難以預(yù)料,但科研的道路卻是一步一個腳印的走出來的。LeCun 接著給大家展示了一系列的技術(shù)干貨,包括近幾年在計算機(jī)視覺(Computer Vision)、深度學(xué)習(xí)(Deep Learning)等方面的最新進(jìn)展以及頗有未來潛力的技術(shù)方向?qū)箤W(xué)習(xí)(Adversarial Learning)。
深度卷積網(wǎng)絡(luò)(Deep Convolutional Nets)
LeCun 先向大家介紹了在各類計算機(jī)視覺任務(wù)中舉足輕重的技術(shù)——深度卷積神經(jīng)網(wǎng)絡(luò)(Deep CNN)。并向大家解釋為什么深度卷積網(wǎng)絡(luò)會非常有效,因為我們假設(shè)世界(圖像)是由很多很多小的部分(特征)組合而來,而當(dāng)深度卷積網(wǎng)絡(luò)作用于圖像時,隨著深度的增加會提取出更加高層次的抽象特征,而這些特征對圖像的識別非常有用。原始的機(jī)器學(xué)習(xí)方式是需要人來手工設(shè)計特征,再在設(shè)計后的特征上訓(xùn)練分類器,而深度學(xué)習(xí)高效地自動化了特征抽取及表示這一塊的工作,因此現(xiàn)在已經(jīng)成為圖像處理的主導(dǎo)性技術(shù)。深度學(xué)習(xí)被視為一種自動學(xué)習(xí)層級化特征表示的學(xué)習(xí)方法。
近些年,逐漸加深的深度卷積神經(jīng)網(wǎng)絡(luò)顯示出了依次遞增的識別效果,從 VGG 到 GoogLeNet,再到 ResNet,也印證了 LeCun 所說的深度卷積網(wǎng)絡(luò)逐層抽取特征的能力。
接著,LeCun 給大家展示了一些基于深度卷積網(wǎng)絡(luò)的有趣應(yīng)用,比如自動駕駛,
看圖說話
定位并識別物體的 DeepMask 技術(shù)
更加高性能的 SharpMask++
以及圖像中各類目標(biāo)的定位及識別
人工智能繼續(xù)前進(jìn)的障礙(Obstacles to AI)
LeCun 認(rèn)為想要實現(xiàn)人工智能,機(jī)器需要首先感知世界的狀態(tài),然后需要能夠更新和記憶世界的狀態(tài),并在此基礎(chǔ)上實現(xiàn)推理和規(guī)劃。因此,智能和常識可以視為感知(Perception)+ 預(yù)測模型(Prediction Model)+ 記憶(Memory)+ 推理和規(guī)劃(Reasoning &Planning)。
那么什么是常識呢?比方說 " 湯姆拿起了他的包離開了房間 ",我們?nèi)丝吹竭@個視頻就可以理解對應(yīng)的行為,而機(jī)器只是看到了湯姆拿起包、打開門、離開房間和關(guān)上門等一系列的動作,如何讓機(jī)器去理解呢?
常識就是通過想象(預(yù)測)來填補(bǔ)空白的能力。
接著 LeCun 指出了進(jìn)一步發(fā)展非監(jiān)督學(xué)習(xí)(預(yù)測學(xué)習(xí))的必要性??紤]到用于訓(xùn)練一個大的學(xué)習(xí)機(jī)器的必要數(shù)據(jù)量取決于我們要求它能預(yù)測多少信息,因此,僅僅預(yù)測人們所提供的標(biāo)簽(監(jiān)督學(xué)習(xí))是不夠的,僅僅預(yù)測一個值函數(shù)(強(qiáng)化學(xué)習(xí))也是不夠的。
接著 LeCun 展示了他著名的 " 蛋糕 " 理論。根據(jù)需要機(jī)器預(yù)測信息的多寡來考量," 純 " 的強(qiáng)化學(xué)習(xí)僅僅是蛋糕上的櫻桃,而監(jiān)督學(xué)習(xí)也不過只是蛋糕的一層糖衣,真正的蛋糕本身其實是強(qiáng)化學(xué)習(xí)(預(yù)測學(xué)習(xí))。
當(dāng)然這里 LeCun 表示這種說法有些冒犯強(qiáng)化學(xué)習(xí)方向的同僚,因為強(qiáng)化學(xué)習(xí)確實獲得了一些巨大突破,比如 AlphaGo 還有各種電競游戲等。
LeCun 展示了經(jīng)典的強(qiáng)化學(xué)習(xí)架構(gòu) Dyna —— " 在腦中先嘗試然后再去行動 ",以及經(jīng)典的基于模型的最優(yōu)控制。
人工智能系統(tǒng)的架構(gòu)(The Achitecture of an Intelligent System)
LeCun 展示了人工智能系統(tǒng)的兩個重要組成部分:一個會學(xué)習(xí)的智能體和一個不變的目標(biāo)函數(shù)。智能體進(jìn)行從世界中感知,做實際決策,再感知,再決策,………這樣一個循環(huán)迭代的過程,智能體的目標(biāo)是最小化長期的期望損失。
而把預(yù)測和規(guī)劃聯(lián)合起來就是推理。如何優(yōu)化智能體做決策的過程呢?可以通過最小化預(yù)測損耗來實現(xiàn)。
我們需要的是如下基于模型的增強(qiáng)學(xué)習(xí)。
學(xué)習(xí)世界的前向預(yù)測模型(Learning Predictive Forward Models of the World)
LeCun 給大家展示了基于卷積網(wǎng)絡(luò)預(yù)測掉落物體軌跡的 PhysNet。
之前 LeCun 提到,記憶(Memory)是非常重要的一塊,而最新的研究工作就嘗試了如何把記憶引入到神經(jīng)網(wǎng)絡(luò)中去,即所謂的記憶網(wǎng)絡(luò)(Memory Network)。
通過引入可導(dǎo)的記憶模塊,我們就可以直接通過反向傳播(BP)來訓(xùn)練如何處理記憶。
Facebook 提出了實體周期神經(jīng)網(wǎng)絡(luò)(Entity Recurrent Neural Network),這是第一個解決所有 20 個 bAIb 任務(wù)的模型。(bAIb 是 Facebook 設(shè)計的測試模型推理能力的數(shù)據(jù)集)
非監(jiān)督學(xué)習(xí)(Unsupervised Learning)
LeCun 介紹基于能量的非監(jiān)督學(xué)習(xí),基本的思想是學(xué)習(xí)一個能量函數(shù),使其在數(shù)據(jù)流形上具有較低的值,而在空間其他地方具有較高的值。
那么我們怎么學(xué)習(xí)能量函數(shù)呢?
我們可以參數(shù)化能量函數(shù),然后利用數(shù)據(jù)估計出相應(yīng)的參數(shù)。那具體我們是怎么估計的呢?
下面列了 7 種構(gòu)建能量函數(shù)的策略,但 LeCun 表示并不想講這 7 種,因為近幾年提出的對抗學(xué)習(xí)(Adversarial Learning)更有意思。
對抗學(xué)習(xí)(Adversarial Learning)
LeCun 指出預(yù)測模型的困難之處,需要基于不確定性去做預(yù)測。比如我們感知到了一個輸入 X,而 X 不過是世界里真實分布的一個采樣,假設(shè)其由某個隱變量 Z 而決定,其相應(yīng)的預(yù)測值 Y 是處于空間的某個流形分布之中,如果采樣不夠多的話,我們并不能夠很好的估計這個流形,這也是預(yù)測的困難之處。
而從基于能量的觀點看對抗學(xué)習(xí),可以由生成器來決定讓哪些點的能量值變高。
下面看一個生成器的例子,輸入是隨機(jī)數(shù),輸出是臥室圖片。這都是完全由模型生成的圖片,并不真實存在。
有趣的是對抗訓(xùn)練可以做算術(shù)運算生成相應(yīng)含義的圖像。
對抗訓(xùn)練還可以用在視頻預(yù)測上,取得了不錯的效果。
我們可以像人腦一樣去預(yù)測未來嗎?可能目前通過對抗訓(xùn)練取得了一些進(jìn)展,但這個問題還遠(yuǎn)遠(yuǎn)沒有解決。
如果使用模型預(yù)測 5 幀,效果還不錯。
但如果我們用其預(yù)測 50 幀的話,效果就大打折扣了。
尾聲:
兩個小時的演講結(jié)束后,大家熱情依然高漲,踴躍地向 LeCun 提各種問題,LeCun 也給出了很多精彩的回答,他認(rèn)為現(xiàn)在的研究環(huán)境越來越好,有在線免費的學(xué)術(shù)分享網(wǎng)站 Arxiv(http://www.21jieyan.cn),每天都會有新工作掛出供大家學(xué)習(xí)討論,同時大家都爭相開源代碼,方便更多的人發(fā)現(xiàn)并學(xué)習(xí)新技術(shù),技術(shù)的更新迭代速度越來越快,他相信未來人工智能和深度學(xué)習(xí)技術(shù)還會有更大的進(jìn)步,將從各個方面改善人們的生活,比如更安全的自動駕駛,F(xiàn)acebook 更智能的人與人的連接服務(wù)等等。
本內(nèi)容出自《創(chuàng)新與創(chuàng)業(yè):硅谷洞察》(Innovation and Entrepreneurship: Insights from Silicon Valley)課程(課號:60510302)的于3月22日在清華大禮堂的公開課。該課程由清華大學(xué)經(jīng)濟(jì)管理學(xué)院發(fā)起,清華x-lab與Facebook公司聯(lián)合設(shè)計。
本文所用活動照片、視頻由清華x-lab提供。
本文PPT選自LeCun在NIPS 2016上的公開內(nèi)容。
注:本稿件摘自入駐數(shù)據(jù)觀自媒體——THU數(shù)據(jù)派,轉(zhuǎn)載請注明來源。微信掃描下方二維碼可直接關(guān)注數(shù)據(jù)觀微信公眾號。
責(zé)任編輯:王培