來(lái)源:源碼資本 時(shí)間:2017-05-02 10:34:00 作者:鄭宇
AI和大數(shù)據(jù)在爭(zhēng)分奪秒深入到商業(yè)和生活中。未來(lái)每一家公司都可能是一家大數(shù)據(jù)公司,一家AI人工智能公司,正如現(xiàn)在每一家公司都是互聯(lián)網(wǎng)公司一樣。
了解人工智能在城市管理和商業(yè)領(lǐng)域的應(yīng)用,將有助于每個(gè)創(chuàng)業(yè)者在實(shí)踐中為自己的產(chǎn)品和商業(yè)模式賦能。
微軟亞洲研究院“城市計(jì)算”領(lǐng)域負(fù)責(zé)人鄭宇博士在源碼資本2017年碼會(huì)上,分享了人工智能在城市計(jì)算領(lǐng)域的進(jìn)展。
鄭宇博士
微軟亞洲研究院資深研究員、“城市計(jì)算”領(lǐng)域負(fù)責(zé)人,ACM數(shù)據(jù)挖掘中國(guó)分會(huì)(KDDChina)秘書(shū)長(zhǎng)、上海交通大學(xué)講座教授、香港科技大學(xué)客座教授、人工智能國(guó)際權(quán)威期刊(SCI一區(qū)刊物)ACMTIST主編。他主持開(kāi)發(fā)了多個(gè)城市大數(shù)據(jù)系統(tǒng),其中UrbanAir首次利用大數(shù)據(jù)來(lái)監(jiān)測(cè)和預(yù)報(bào)細(xì)粒度空氣質(zhì)量,該服務(wù)覆蓋了中國(guó)的300多個(gè)城市,并被中國(guó)環(huán)境保護(hù)部采用。他主持了城市大數(shù)據(jù)平臺(tái)的設(shè)計(jì)和實(shí)施,并成功在中國(guó)大數(shù)據(jù)示范基地貴陽(yáng)市部署。2013年被MIT科技評(píng)論評(píng)為“全球杰出青年創(chuàng)新者”(TR35),并作為現(xiàn)代創(chuàng)新者代表登上了美國(guó)《時(shí)代》周刊。2014年,由于他主導(dǎo)的城市計(jì)算具有巨大的商業(yè)前景和改變行業(yè)格局的潛力,他被《財(cái)富》評(píng)選為中國(guó)40位40歲以下商界精英。2016年被評(píng)為美國(guó)計(jì)算機(jī)學(xué)會(huì)杰出科學(xué)家(ACMDistinguishedScientist)。
以下是鄭宇博士在2017年碼會(huì)上的演講原文:
非常高興有機(jī)會(huì)能夠跟大家分享我們?cè)诔鞘杏?jì)算(UrbanComputing)領(lǐng)域的工作。大家平時(shí)聽(tīng)到很多人工智能用于語(yǔ)音、圖象、文本的場(chǎng)景。怎么樣用人工智能和大數(shù)據(jù)技術(shù)改變我們的生活,我圍繞這個(gè)主題探討一下,人工智能在城市領(lǐng)域的進(jìn)展。
做好人工智能在城市領(lǐng)域的應(yīng)用需要四個(gè)方面的技能:
1、理解城市文化本身,數(shù)據(jù)科學(xué)家純粹的理論無(wú)法代替行業(yè)知識(shí);
2、理解數(shù)據(jù)本身,不僅僅要了解數(shù)據(jù)的表征,也要了解數(shù)據(jù)背后蘊(yùn)含了什么樣的知識(shí);
3、掌握數(shù)據(jù)科學(xué)的模型,包括數(shù)據(jù)管理,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),還有可視化;
4、懂得如何利用云平臺(tái),把算法高效部署在平臺(tái)上解決問(wèn)題。
在城市領(lǐng)域,以上四點(diǎn)也有應(yīng)用上的不同之處:
可以想象到城市里面數(shù)據(jù)特別多,鏈家的、搜房的,從地理信息到人流量,好像千差萬(wàn)別上百種、上千種的數(shù)據(jù)。實(shí)際上按照數(shù)據(jù)的結(jié)構(gòu)來(lái)分的話有兩種數(shù)據(jù),一種點(diǎn)的數(shù)據(jù),一種網(wǎng)的數(shù)據(jù)。按照數(shù)據(jù)關(guān)聯(lián)的時(shí)空屬性來(lái)分,可以分為三類。所以總共有六種數(shù)據(jù)。這六種中最為復(fù)雜的就是軌跡數(shù)據(jù),因?yàn)槲矬w的位置和在每個(gè)位置上的屬性都在不斷的隨著時(shí)間改變,而且點(diǎn)和點(diǎn)之間存在著關(guān)聯(lián)。像摩拜和滴滴的車的軌跡都屬于這種類型。
我不希望來(lái)了一千種數(shù)據(jù)要建一千種模型和算法,使得系統(tǒng)變得非常復(fù)雜。我們希望只要定義好這個(gè)模型之后,不管你來(lái)什么數(shù)據(jù),可以高效利用平臺(tái),利用對(duì)應(yīng)的分析和挖掘算法去處理。
城市領(lǐng)域有大規(guī)模的數(shù)據(jù),多元、多模,變化非常快,這么復(fù)雜的數(shù)據(jù)怎樣快速更新,以及大規(guī)模的應(yīng)用?必須要有一個(gè)平臺(tái)。大家自然會(huì)想到,我們就用云平臺(tái)把它連接到一起??上У氖牵还苣募疑逃迷破脚_(tái)都無(wú)法做好時(shí)空大數(shù)據(jù),對(duì)城市大數(shù)據(jù)支持的并不是很好。
現(xiàn)有云平臺(tái)處理城市大數(shù)據(jù)的限制,與MSRA的實(shí)踐:
1、數(shù)據(jù)結(jié)構(gòu)很不一樣,跟圖象文本結(jié)構(gòu)不一樣。
2、查詢方式不一樣。例如我們?cè)谡业蔚蔚臅r(shí)候,希望是找周邊這個(gè)時(shí)間段內(nèi)有沒(méi)有空車經(jīng)過(guò),而不是關(guān)鍵詞進(jìn)去匹配一個(gè)文本出來(lái)。
3、真正我們做城市計(jì)算的時(shí)候我們往往用到多個(gè)數(shù)據(jù)源,而不是單一數(shù)據(jù)。比如說(shuō)空氣質(zhì)量預(yù)測(cè)的時(shí)候我們需要用到氣象、交通、地理信息以及人的移動(dòng)數(shù)據(jù),怎么樣把這些數(shù)據(jù)多元管理起來(lái)?這是一個(gè)難題,這個(gè)技術(shù)是缺失的。所以基于它的原因,現(xiàn)在已有的云平臺(tái)并不能很好的支持時(shí)空大數(shù)據(jù)。
受限于已有云平臺(tái)的現(xiàn)實(shí)限制,微軟亞洲研究院去年在洛陽(yáng)市落地了中國(guó)第一個(gè)城市大數(shù)據(jù)平臺(tái)。
它首先定義了六種數(shù)據(jù)模型,然后利用了現(xiàn)有微軟云計(jì)算平臺(tái)的存儲(chǔ)資源。接著我們做了一層中間件,針對(duì)不同的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)了時(shí)空索引算法,并針對(duì)不同數(shù)據(jù)設(shè)計(jì)了混合式索引算法。然后把時(shí)空索引集成到Hadoop、Spark和Storm等分布式計(jì)算環(huán)境中。
這里面不光有分布式計(jì)算環(huán)境,也有時(shí)空索引算法,兩者的結(jié)合把數(shù)據(jù)的訪問(wèn)和管理存儲(chǔ)變得非常高效。最后向上層的機(jī)器學(xué)習(xí)和人工智能算法提供API,使得我們的機(jī)器學(xué)習(xí)算法能夠快速訪問(wèn)下面的一些數(shù)據(jù)。想象一下,如果沒(méi)有這一層的話很多機(jī)器學(xué)習(xí)算法根本不能上線,根本不能做大規(guī)模的訪問(wèn)和應(yīng)用。
下面幾個(gè)應(yīng)用案例可以看到這個(gè)城市大數(shù)據(jù)平臺(tái)所產(chǎn)生的實(shí)際效應(yīng)。
1.城市充電樁與廣告牌布局
通過(guò)城市大數(shù)據(jù)平臺(tái)在貴陽(yáng)市決定應(yīng)該在什么位置放置充電樁,才能最大化覆蓋整個(gè)城市的車流量。最終選取出五個(gè)路口,使得覆蓋不同出租車的GPS軌跡數(shù)量最大化。
以前做這個(gè)工作需要一天?,F(xiàn)在我們只需要2-3秒的計(jì)算結(jié)果。我們發(fā)現(xiàn)在商業(yè)應(yīng)用中,我們部署一個(gè)東西除了需要數(shù)據(jù)科學(xué)支持還需要行業(yè)知識(shí)支持,不僅要考慮車流量最大化的問(wèn)題,還是考慮周邊是不是商城,有沒(méi)有配套。車主充電的兩小時(shí)等待時(shí)間里,周邊要有餐飲、娛樂(lè)機(jī)構(gòu)供人休閑。
我們通過(guò)可視交互的分析方法實(shí)現(xiàn)人的智慧與人工智能的結(jié)合。人工智能先用簡(jiǎn)單的規(guī)則,用算法反饋一個(gè)初步結(jié)果讓行業(yè)專家判斷,行業(yè)專家認(rèn)為這個(gè)點(diǎn)不合適可以刪掉,或者保留這個(gè)點(diǎn)再計(jì)算,實(shí)現(xiàn)了一個(gè)迭代式的交互挖掘。
這個(gè)案例體現(xiàn)了平臺(tái)的威力,性能的威力,也體現(xiàn)了真正把機(jī)器智能跟人的智能結(jié)合在一起。
除了充電樁,這個(gè)模型還可以分析商業(yè)門店選址、廣告牌選址,這些案例體現(xiàn)出城市大數(shù)據(jù)平臺(tái)的數(shù)據(jù)管理威力。
2.房?jī)r(jià)評(píng)估
在我們的這個(gè)城市大數(shù)據(jù)平臺(tái)里還有一個(gè)專門的數(shù)據(jù)分析層面,包含三個(gè)子層面:最普通的機(jī)器學(xué)習(xí)算法,專門針對(duì)時(shí)空數(shù)據(jù)設(shè)計(jì)的機(jī)器學(xué)習(xí)算法,以及多元數(shù)據(jù)融合算法。
我們看一下這個(gè)例子,我們想對(duì)房屋價(jià)值進(jìn)行相應(yīng)的排序,并不是預(yù)測(cè)價(jià)格。也就是說(shuō)北京同樣一個(gè)市場(chǎng),如果漲的話誰(shuí)漲的比較多,如果跌的話誰(shuí)跌的相對(duì)比較慢?
在相同環(huán)境下,摒棄政策因素和環(huán)境因素。根據(jù)漲幅比將房子排序,排完序把房子排好12345等,一類房最好,五類房最差(漲的最慢,跌的最快)。李嘉誠(chéng)說(shuō)過(guò),房子價(jià)值由三個(gè)方面決定,一是地段,二是地段,三還是地段。這三個(gè)地段其實(shí)可以用數(shù)據(jù)量化。
第一地段就是周邊各類設(shè)施配套水平,交通,商場(chǎng),學(xué)校等等這些數(shù)據(jù)都可以從路網(wǎng)、POI學(xué)到。同樣是學(xué)區(qū),重點(diǎn)學(xué)區(qū)和普通學(xué)校對(duì)房?jī)r(jià)影響非常大,好的商場(chǎng)比破舊的商場(chǎng)對(duì)這個(gè)地段的價(jià)值拉動(dòng)差距很大。
所以有第二個(gè)地段:Popularity,比如人們出行規(guī)律非常重要。人們出行的規(guī)律已經(jīng)刻畫(huà)了這個(gè)地方的價(jià)值,一個(gè)地段坐公交地鐵出去,另外一個(gè)地段基本上以開(kāi)車打車出去,你覺(jué)得哪地段更高端一點(diǎn),人的行為可以刻畫(huà)這個(gè)地段的形式。
第三個(gè)地段是房子所在的商圈,并不意味著每一個(gè)望京區(qū)域的房子都是好房子,而要用7-8種數(shù)據(jù)刻畫(huà)這個(gè)地段的價(jià)值。
從每一個(gè)數(shù)據(jù)里面可以提取出來(lái)很多的特征,再進(jìn)行計(jì)算。比如說(shuō)這個(gè)房子周邊有幾個(gè)公交車站,離他最近的公交車站多遠(yuǎn),離他最近的地鐵車站多遠(yuǎn),然后可以把它變成排序的問(wèn)題。這里面體現(xiàn)了不是一個(gè)簡(jiǎn)單的算法就可以解決的問(wèn)題,很多特征是冗余性,并不是完全獨(dú)立的,相關(guān)性非常大,而且很多特征不是線性的,因此我們要加很多的約束做這個(gè)事情。
怎么做驗(yàn)證呢?用2013-2014年的房屋數(shù)據(jù)預(yù)測(cè)2015年的排序,2015年過(guò)完之后自然知道這個(gè)結(jié)果怎么樣。用搜房網(wǎng)解決這個(gè)事情準(zhǔn)確率非常高。NDC基本上達(dá)到95%以上,這是一個(gè)非常好的結(jié)果。
這個(gè)技術(shù)還被應(yīng)用到上?;疱伒甑倪x址以及對(duì)城市綜合商業(yè)體的價(jià)值評(píng)估。中國(guó)一線城市的商業(yè)品牌,像萬(wàn)達(dá)以及保利商場(chǎng)等等,這些綜合商業(yè)的評(píng)估是非常困難的,但用我們的方法來(lái)做是有價(jià)值的。2016年的數(shù)據(jù)已經(jīng)顯示,北京100多個(gè)綜合商業(yè)體哪個(gè)漲幅最快,最值得投入,并且形成排序。這個(gè)排序也應(yīng)用于銀行業(yè)信貸評(píng)估,幫助銀行業(yè)評(píng)估綜合商業(yè)體的價(jià)值,決定以后貸多少錢,抵多少錢,通過(guò)人工智能評(píng)估長(zhǎng)期價(jià)格增勢(shì)。
3.AI+共享拼車
滴滴以及摩拜,這兩個(gè)案例與AI聯(lián)系非常緊密。
先講拼車,電召車行業(yè)做到拼車才是真正的共享化,所以拼車是最終目標(biāo)。發(fā)明拼車的初衷是城市車輛過(guò)多與打車難之間的矛盾。在希望車輛總量不增加的前提下,出現(xiàn)了拼車的想法。為了保證用戶體驗(yàn),拼車必須保證滿足用戶希望什么時(shí)間到達(dá)目的地的要求。
通過(guò)AI找到一輛車接這個(gè)人,并且他真正距離最小,這是一個(gè)最優(yōu)的方案。但現(xiàn)在是不是還有別的車,可以滿足乘客的到達(dá)時(shí)間,同時(shí)也要征求乘客的拼車意愿?如果可以使乘客的到達(dá)時(shí)間稍微推遲五分鐘,但是可以省五塊錢,你愿不愿意?在拼車方案中,保證乘客在規(guī)定時(shí)間到達(dá),這個(gè)是關(guān)鍵的。
通過(guò)對(duì)車輛距離、預(yù)期到達(dá)時(shí)間與價(jià)格之間的動(dòng)態(tài)平衡匹配,最大化滿足用戶的需求,是一個(gè)很困難的問(wèn)題。這些需求已經(jīng)超過(guò)了人類自己思考可以實(shí)現(xiàn),必須要人工智能后面重新調(diào)度。
使用AI技術(shù)模擬,把出租車換成一個(gè)卡車,把一個(gè)人看成貨物,上車點(diǎn)是取貨地點(diǎn),乘客下車地點(diǎn)是送貨地點(diǎn)。我們把這些應(yīng)用于順豐合作,可以在不增加人員的情況把順豐的吞吐效率提高5%-10%。
實(shí)現(xiàn)了當(dāng)下的優(yōu)化以后,對(duì)未來(lái)的優(yōu)化更加重要。這將涉及到深度學(xué)習(xí)。
以物流業(yè)為例,未來(lái)的物流一要看預(yù)測(cè),二要看累計(jì)最優(yōu),三要加時(shí)空索引,這三個(gè)東西要加在一起。
假設(shè)我們把一公里分成很多格子,可以預(yù)測(cè)未來(lái)有多少人進(jìn)有多少人出,可以預(yù)測(cè)未來(lái)有多少人請(qǐng)求摩拜,有多少人請(qǐng)求滴滴,有多少人訂餓了么。我們?cè)谫F陽(yáng)已經(jīng)開(kāi)始做這種預(yù)測(cè)了,在貴陽(yáng)預(yù)測(cè)的是每個(gè)格子里面有多少出租車進(jìn)有多少出租車出。能夠預(yù)測(cè)出未來(lái)這個(gè)地方有多少人請(qǐng)求餓了么的訂單。用這種數(shù)據(jù)來(lái)驗(yàn)證我模型的正確性。
做深度學(xué)習(xí)預(yù)測(cè)人流、訂單量最開(kāi)始的動(dòng)機(jī)來(lái)自于上海市的踩踏事件。踩踏事件發(fā)生之后我很痛心地寫(xiě)了一個(gè)微博,我說(shuō),這個(gè)事情可以通過(guò)人工智能做預(yù)測(cè)提前避免,如果提前兩三個(gè)小時(shí)知道未來(lái)有多少人去那個(gè)地方,就可以從源頭分流,不要等到大家都去了去疏解。如果政府能夠提前預(yù)測(cè)量級(jí),可以提前預(yù)備安全措施。
類似的公共需求也適用于北京地鐵,商業(yè)需求則適用于滴滴、摩拜和餓了么等。
但是預(yù)測(cè)人流量是一個(gè)困難的工作,因?yàn)橄嚓P(guān)因素非常多。同時(shí),時(shí)間空間數(shù)據(jù)不同于文本,空間有距離,有層次,時(shí)間有周期性,還有趨勢(shì)性。
比如說(shuō)交通容量每天都有變化,我們一定要考慮到時(shí)間的周期、趨勢(shì)、臨近性,考慮到空間的遠(yuǎn)近性,把不同的數(shù)據(jù)進(jìn)行融合,以及不同的影響因子在不同層次融合。最后得到好的結(jié)果。這個(gè)數(shù)據(jù)在北京的出租車得到印證,在美國(guó)的自行車租賃系統(tǒng)得到印證,現(xiàn)在拿摩拜進(jìn)行印證,效果都比以前的方法好很多。
4.城市計(jì)算在空氣質(zhì)量領(lǐng)域的應(yīng)用
微軟亞洲研究院曾經(jīng)用大數(shù)據(jù)和人工智能的算法預(yù)測(cè)全國(guó)200多個(gè)城市的空氣質(zhì)量。
因?yàn)榭諝赓|(zhì)量受很多復(fù)雜的影響,包括周邊的樓房密度,周邊的交通擁堵情況,周邊的擴(kuò)散情況,導(dǎo)致整個(gè)城市空氣質(zhì)量不均勻。
我們把京津冀、珠三角、長(zhǎng)三角城市群數(shù)據(jù)放在一起,做大尺度的系列預(yù)測(cè)和分析。有了這個(gè)信息之后,你會(huì)發(fā)現(xiàn)每次空氣質(zhì)量從好變壞過(guò)程中,你就知道哪里先變壞,哪里后變壞,知道它的傳播過(guò)程。政府是明確需要知道非常細(xì)的空氣質(zhì)量的數(shù)據(jù),甚至要細(xì)到賓館級(jí),因?yàn)橛械臅r(shí)候我們領(lǐng)導(dǎo)人就住在某個(gè)賓館。
預(yù)測(cè)未來(lái)。我的預(yù)測(cè)是系列預(yù)測(cè),空氣質(zhì)量預(yù)測(cè)既要看天還要看人,是個(gè)很困難的事情。如果你要看細(xì),細(xì)到西直門、東直門怎么樣?這非常困難。還有空氣質(zhì)量拐點(diǎn)的預(yù)測(cè),我們知道當(dāng)刮大風(fēng)和下大雨時(shí),空氣質(zhì)量從500瞬間就變成了50,這個(gè)拐點(diǎn)的出現(xiàn)對(duì)政府來(lái)說(shuō)是極關(guān)重要的。
可是,空氣質(zhì)量的拐點(diǎn)為什么那么重要呢?舉例說(shuō)明,政府曾經(jīng)做了很多措施限流限行,關(guān)閉了河北的工廠,以北京為中心畫(huà)一個(gè)圓,把圓里面所有的工廠全關(guān)掉,使得我們的空氣質(zhì)量保持在100以下。但如果你知道明天是拐點(diǎn),明天會(huì)下降干嘛去關(guān)它?這一個(gè)決策就能夠幫國(guó)家避免上百億上千億的損失。
微軟亞洲研究院還在貴陽(yáng)落地中國(guó)第一個(gè)交通流量圖。這個(gè)地方顯示的是車的流量不是簡(jiǎn)單的速度,對(duì)政府的管理、規(guī)劃它一定要知道有多少車經(jīng)過(guò),即流量。有了流量之后就能算出速度、油耗,每個(gè)路段上面都可以算出來(lái),進(jìn)而可以看出來(lái)每個(gè)路段實(shí)時(shí)排放的PM2.5有多少,現(xiàn)在能把車的尾氣排放算出來(lái),結(jié)合空氣中測(cè)點(diǎn)的讀數(shù),我們知道空氣中尾氣排放和PM2.5結(jié)合在一起,我們就能夠正確回答空氣中汽車尾氣排放和PM2.5到底占多少,這個(gè)對(duì)政府的指導(dǎo)具有重要的意義。
5.做好真正智能城市的四個(gè)關(guān)鍵
第一,要理解行業(yè)知識(shí)。如果我不懂環(huán)境,不跟環(huán)境學(xué)家交流,也不知道他們做了什么東西,那么他們行業(yè)里面也無(wú)法接受大數(shù)據(jù)的分析結(jié)果。
最近我搞了兩年多環(huán)境,現(xiàn)在清華大學(xué)環(huán)境學(xué)院每年請(qǐng)我給他們環(huán)境學(xué)院的學(xué)生研究生上課,只有達(dá)到這個(gè)程度之后,才能跟別的行業(yè)融合。
第二,對(duì)數(shù)據(jù)的理解很重要。路面上的出租車交通軌跡不光反映了出租車交通容量,也反映了人們的出行規(guī)律。出行規(guī)律反映的是功能、經(jīng)濟(jì)、環(huán)境狀況,如果這樣想的話,你會(huì)發(fā)現(xiàn)我們的數(shù)據(jù)永遠(yuǎn)不缺,大數(shù)據(jù)時(shí)代我們不缺數(shù)據(jù),缺的是心不夠開(kāi)放。大數(shù)據(jù)的價(jià)值把多個(gè)數(shù)據(jù)融合在一起,做到1+1大于2的結(jié)果,這才是它的特點(diǎn)和魅力。
第三,深度學(xué)習(xí)。我們看到各種各樣的算法不只是機(jī)器學(xué)習(xí),有深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘還有數(shù)據(jù)庫(kù),很多方法索引加學(xué)習(xí)加模擬結(jié)合在一起,很多是把數(shù)據(jù)融合在一塊。
第四,數(shù)據(jù)科學(xué)家。數(shù)據(jù)科學(xué)家非常難培養(yǎng),培養(yǎng)這個(gè)人至少7-10年,很多項(xiàng)目只要有了這一個(gè)人,就能把這一個(gè)東西傳到一塊,一個(gè)好的數(shù)據(jù)科學(xué)家站在云平臺(tái)上面,看問(wèn)題想數(shù)據(jù)觀模型,然后把模型部署到云平臺(tái)上面,才能解決鮮活的問(wèn)題,這才是數(shù)據(jù)科學(xué)家。
責(zé)任編輯:陳近梅