精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

首頁(yè) 自媒自媒體 THU數(shù)據(jù)派正文

語(yǔ)義視角下的跨學(xué)科與跨界數(shù)據(jù)認(rèn)知

?  在這個(gè)新技術(shù)、新商業(yè)、新城市、新環(huán)境等加速迭代的智能時(shí)代,不斷涌現(xiàn)的革新挑戰(zhàn)著人們傳統(tǒng)的意識(shí)和粗淺的認(rèn)知。本期由清華-青島數(shù)據(jù)科學(xué)研究院主辦,中國(guó)科促會(huì)清數(shù)大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟、清華校友AI大數(shù)據(jù)專(zhuān)委會(huì)(籌)承辦的清華大數(shù)據(jù)“應(yīng)用·創(chuàng)新”系列講座將從語(yǔ)義視角切入數(shù)據(jù)認(rèn)知領(lǐng)域,試圖尋找跨學(xué)科與跨界的共識(shí)機(jī)制,探尋學(xué)術(shù)與商業(yè)合作過(guò)程中所需要的能力。

  嘉賓簡(jiǎn)介:清華-青島數(shù)據(jù)科學(xué)研究院大數(shù)據(jù)基礎(chǔ)設(shè)施研究中心副主任趙強(qiáng)老師,其本人為北京大學(xué)計(jì)算語(yǔ)言學(xué)博士,研究方向?yàn)檎Z(yǔ)義學(xué),2012年起轉(zhuǎn)向高校和企業(yè)的多學(xué)科跨界融合產(chǎn)學(xué)研對(duì)接工作,提出社會(huì)化大規(guī)模實(shí)驗(yàn)的新概念,參與北大、清華、復(fù)旦等多項(xiàng)產(chǎn)業(yè)前沿項(xiàng)目,在知識(shí)圖譜、語(yǔ)義網(wǎng)絡(luò)、區(qū)塊鏈應(yīng)用、性格匹配、情感計(jì)算、文本語(yǔ)義分析等方向上有深入探索。

  本期講座將圍繞大數(shù)據(jù)基礎(chǔ)設(shè)施、社會(huì)化大數(shù)據(jù)試驗(yàn)和場(chǎng)景數(shù)據(jù)化三個(gè)方面展開(kāi)。

??? 以下是演講實(shí)錄:

  “大數(shù)據(jù)基礎(chǔ)設(shè)施要解決的,是面向積累、面向需求形成標(biāo)準(zhǔn)或者共識(shí)的那一部分?!?/p>

  隨著各種各樣的大數(shù)據(jù)項(xiàng)目的增加,我們開(kāi)始關(guān)心它的數(shù)據(jù)可視化是不是夠炫,政務(wù)項(xiàng)目是不是做得很好,或者是關(guān)心某一些特定的項(xiàng)目是不是能夠賺錢(qián)。但是事實(shí)上絕大多數(shù)的項(xiàng)目都需要大數(shù)據(jù)基礎(chǔ)設(shè)施的支撐,這個(gè)詞不常見(jiàn),但是它將慢慢地成為一個(gè)非常重要的事情。在某種意義上,大數(shù)據(jù)基礎(chǔ)設(shè)施的互用性是非常大的,譬如說(shuō)一個(gè)數(shù)據(jù)中心,或是SDN軟件定義網(wǎng)絡(luò),或是數(shù)據(jù)的智能調(diào)度,或是數(shù)據(jù)安全以及在數(shù)據(jù)中心的日志維修等方面,都會(huì)有大量的知識(shí)。用我們中心主任徐葳老師的話(huà)來(lái)說(shuō),大數(shù)據(jù)基礎(chǔ)設(shè)施基本上就是隱藏在整個(gè)光鮮的應(yīng)用背后一系列的苦工作,平時(shí)大家看不到,但是一旦大家能感覺(jué)得到,這就一定是出了大問(wèn)題。

  我個(gè)人的學(xué)習(xí)經(jīng)歷是從89年進(jìn)入北大之后,95年、96年開(kāi)始做編詞典的工作,做漢語(yǔ)語(yǔ)法信息詞典和漢語(yǔ)語(yǔ)義詞典,現(xiàn)在比較時(shí)髦叫語(yǔ)義網(wǎng)、知識(shí)圖譜,這是一種能夠讓人和機(jī)器都讀懂的、具有共性的、處于整個(gè)數(shù)據(jù)應(yīng)用層底層的技術(shù)和資源,是大數(shù)據(jù)基礎(chǔ)設(shè)施層的內(nèi)容。那么,大數(shù)據(jù)基礎(chǔ)設(shè)施都包括哪些內(nèi)容呢?

  

  可以看出,大數(shù)據(jù)基礎(chǔ)設(shè)施包涵很多技術(shù)層面,但都是底層的非應(yīng)用型的技術(shù)。大數(shù)據(jù)基礎(chǔ)設(shè)施要解決的,是面向積累、面向需要可能形成的標(biāo)準(zhǔn),或者共識(shí)這樣的部分,需要長(zhǎng)期的積累,假如說(shuō)這些技術(shù)有面向應(yīng)用的地方,可能就不是大數(shù)據(jù)基礎(chǔ)設(shè)施需要去涉及的。下圖中紫色的部分,就是我們認(rèn)為大數(shù)據(jù)基礎(chǔ)設(shè)施層要做的一些工作,它所涉及的層面也非常得多。

  

  大數(shù)據(jù)基礎(chǔ)設(shè)施的定位與認(rèn)知:

  大數(shù)據(jù)基礎(chǔ)設(shè)施是面向數(shù)據(jù)采集、數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用的創(chuàng)新性系統(tǒng)工程。

  一方面指支撐大數(shù)據(jù)應(yīng)用和大數(shù)據(jù)產(chǎn)業(yè)的基礎(chǔ)設(shè)施,即通過(guò)對(duì)云計(jì)算、SDN/NFV、分布式數(shù)據(jù)中心、可定制服務(wù)器以及人工智能等領(lǐng)域的技術(shù)整合創(chuàng)新、工程實(shí)踐、標(biāo)準(zhǔn)發(fā)布、社區(qū)建設(shè),創(chuàng)造一系列高效率、高可用性和智能化的數(shù)據(jù)產(chǎn)業(yè)云網(wǎng)一體支撐性平臺(tái)。

  另一方面指用大數(shù)據(jù)和人工智能的方法,解決基礎(chǔ)設(shè)施運(yùn)行過(guò)程中的問(wèn)題,為數(shù)據(jù)產(chǎn)業(yè)的安全、運(yùn)維、生產(chǎn)實(shí)驗(yàn)環(huán)境、服務(wù)和運(yùn)營(yíng)體系提供價(jià)值。

  兩方面互為促進(jìn),構(gòu)成完整的大數(shù)據(jù)基礎(chǔ)設(shè)施價(jià)值觀、方法論和影響域,匯聚產(chǎn)業(yè)和科研人才,解決產(chǎn)業(yè)和科研問(wèn)題。

  我個(gè)人目前傾向于研究語(yǔ)義網(wǎng)或知識(shí)圖譜,比如元數(shù)據(jù)和數(shù)據(jù)治理,在一個(gè)行業(yè)里邊我們?cè)噲D要為數(shù)據(jù)的數(shù)據(jù)做一些定義時(shí),一個(gè)完整的數(shù)據(jù)集以及術(shù)語(yǔ)的標(biāo)準(zhǔn)化,還有術(shù)語(yǔ)相互之間的關(guān)系,就是知識(shí)圖譜可以提供解決方案的。知識(shí)圖譜在應(yīng)用層的代表主要是谷歌、百度的語(yǔ)義搜索,它們的目標(biāo)就是想把所有的不分門(mén)類(lèi)的知識(shí)都能夠統(tǒng)一地變成一個(gè)巨大的圖譜。但知識(shí)和知識(shí)相互之間有可能會(huì)沖突,而且每一個(gè)知識(shí)的應(yīng)用場(chǎng)景是有限的,因此我們現(xiàn)在做知識(shí)圖譜仍是要面向行業(yè),而不是全部。

  最近一兩年,隨著金融科技的興起,一些國(guó)內(nèi)的新三板、A股要去分析和挖掘海量的文本,這個(gè)時(shí)候知識(shí)圖譜技術(shù)開(kāi)始被重視起來(lái)。知識(shí)圖譜在金融科技領(lǐng)域的應(yīng)用,就是把海量的文本累積起來(lái),把里面的實(shí)體和關(guān)系、特征都放到數(shù)據(jù)庫(kù)里面。比如說(shuō)一個(gè)上市公司,或者是一個(gè)大的集團(tuán),它的背后可能會(huì)存在的一些關(guān)聯(lián)性。經(jīng)常炒股的人都聽(tīng)過(guò)“萬(wàn)象系”、“德隆系”,這些事情如果在知識(shí)圖譜當(dāng)中被發(fā)現(xiàn),這就能夠成為證券監(jiān)測(cè)里邊所謂的輿情監(jiān)測(cè)的部分,幫助相關(guān)機(jī)構(gòu)和政府部門(mén)去發(fā)現(xiàn)異常交易,去發(fā)現(xiàn)一些潛在的風(fēng)險(xiǎn)。

  在金融行業(yè)里邊所談到的輿情監(jiān)測(cè),可能并不一定是簡(jiǎn)單的判斷。它更多的是希望能夠找到一種復(fù)雜的關(guān)系,可以對(duì)未來(lái)可能發(fā)生的事情作出一些預(yù)警,或者是預(yù)判。那么證監(jiān)會(huì)的輿情監(jiān)測(cè),它的豐富程度遠(yuǎn)遠(yuǎn)超出我們過(guò)去所設(shè)想的在某些文本上做一些簡(jiǎn)單的情感計(jì)算就能夠得到的。它背后存在大量的知識(shí),而這些知識(shí)最好的表達(dá)方式肯定就是用知識(shí)圖譜的方式。

  “在逐漸進(jìn)入智能時(shí)代的時(shí)候,在大數(shù)據(jù)的支撐下,社會(huì)化大數(shù)據(jù)試驗(yàn)使我們有了一套全新的評(píng)估方式?!?/p>

  人工智能的人才缺口動(dòng)輒500萬(wàn),但是這里到底是缺少高端的數(shù)據(jù)科學(xué)家,還是缺少碼農(nóng)?經(jīng)過(guò)一些走訪(fǎng)我們了解到,人工智能的人才缺口是那些能夠在傳統(tǒng)職業(yè)取向上更新自己的技能的人才。比如過(guò)去我們要求完全掌握Office就可以做文員,現(xiàn)在還應(yīng)該會(huì)用Excel做一些簡(jiǎn)單的數(shù)據(jù)分析,生成可視化報(bào)告,能夠知道公司里面哪些數(shù)據(jù)是可以收集的,哪些數(shù)據(jù)可能對(duì)于公司的運(yùn)營(yíng)和決策是有價(jià)值的,這樣我們就對(duì)辦公室文秘這樣的崗位進(jìn)行了智能時(shí)代的數(shù)據(jù)認(rèn)知升級(jí)。這種智能升級(jí)不是通過(guò)傳統(tǒng)的教育方式能夠培養(yǎng)出來(lái)的,而是需要借助職業(yè)教育或高校的大數(shù)據(jù)專(zhuān)業(yè)推進(jìn),這也是人才的大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)。

  在如今這個(gè)智能時(shí)代,我們通過(guò)建立知識(shí)圖譜數(shù)據(jù)庫(kù),構(gòu)建雙生子系統(tǒng),模擬可能出現(xiàn)的一些反饋,并通過(guò)調(diào)整參數(shù),任意放入很多虛擬的人格和環(huán)境當(dāng)中可能遇到的種種變量。這個(gè)時(shí)候我們就有了一套新的評(píng)估方式,這個(gè)評(píng)估方式就是在沒(méi)有引發(fā)實(shí)際的社會(huì)反應(yīng)之前,我們就可以去評(píng)估任何一個(gè)事件,它一旦放到大數(shù)據(jù)的社會(huì)化當(dāng)中去的時(shí)候,有可能會(huì)產(chǎn)生一些什么樣的反應(yīng),這就是社會(huì)化大數(shù)據(jù)試驗(yàn)在逐漸進(jìn)入智能時(shí)代的時(shí)候,在大數(shù)據(jù)的支撐下,它能夠起到的一個(gè)作用。

  

  在游戲《魔獸世界》里面曾經(jīng)發(fā)生過(guò)一個(gè)比較著名的實(shí)驗(yàn)。2005年,《魔獸世界》哈卡之血帶來(lái)了瘟疫,這個(gè)瘟疫是玩家利用一些BUG,把這個(gè)瘟疫帶回主城,就有大量的玩家上線(xiàn)就死,沒(méi)法繼續(xù)游戲。發(fā)生“墮落之血”事件后,許多媒體以及流行病學(xué)家呼吁,此類(lèi)的網(wǎng)絡(luò)瘟疫傳播事件,有助于研究病毒傳播的模型,以及人們?nèi)绾螌?duì)抗環(huán)境中的疾病等現(xiàn)象。包括美國(guó)Tufts大學(xué)、以色列的Ben-Gurion大學(xué)皆表示,電子角色扮演游戲可提供高階的研究平臺(tái)、虛擬環(huán)境,讓科學(xué)家進(jìn)行相似的疾病傳染研究。

  這個(gè)事件之后,大家逐漸認(rèn)識(shí)到了像大數(shù)據(jù)社會(huì)試驗(yàn)的另一種方式的可能性,我們可以很好地獲取虛擬世界當(dāng)中的數(shù)據(jù)映射到現(xiàn)實(shí)社會(huì)當(dāng)中來(lái),對(duì)現(xiàn)實(shí)社會(huì)中可能出現(xiàn)的一些不好的影響來(lái)作出一些預(yù)判,甚至作出一些調(diào)控。如果它的準(zhǔn)確率能夠達(dá)到80%,那么它就具有比較好的效率,同時(shí)它基本上沒(méi)有負(fù)面的影響。

  

  關(guān)于性格匹配也是一個(gè)比較有趣的研究課題。所謂的酒逢知己千杯少,國(guó)外的很多心理學(xué)家針對(duì)這個(gè)假設(shè)也做了一些實(shí)驗(yàn)室級(jí)別的研究,說(shuō)明確實(shí)存在著這樣一種類(lèi)似于“相生相克”的關(guān)系。但是這種實(shí)驗(yàn)室研究一般樣本很少,如果能夠把這種性格匹配放到大數(shù)據(jù)的社會(huì)化實(shí)驗(yàn)當(dāng)中去,就會(huì)獲得更有力的證明。當(dāng)時(shí)貝塔斯曼有一個(gè)全球最大的國(guó)際呼叫中心,他們主要服務(wù)寶馬、奔馳等一些大的汽車(chē)服務(wù)商。

  當(dāng)時(shí)我們把性格收集的語(yǔ)音分析軟件放到呼叫中心的生產(chǎn)線(xiàn)上去做一些基本的數(shù)據(jù)收集,并做一些初級(jí)匹配,然后再根據(jù)我們匹配的結(jié)果進(jìn)行反復(fù)地迭代,最后找到這樣一種性格匹配的最佳模式。雖然實(shí)驗(yàn)的過(guò)程中涉及隱私問(wèn)題無(wú)疾而終,但性格確實(shí)和喜好有著比較密切的關(guān)系,根據(jù)這些語(yǔ)音來(lái)做一些性格方面的預(yù)測(cè),提供所謂個(gè)性化的服務(wù),這樣的數(shù)據(jù)應(yīng)用價(jià)值是非常巨大的。

  社會(huì)化大數(shù)據(jù)試驗(yàn)包括在實(shí)驗(yàn)室里面會(huì)有一些假設(shè),也會(huì)有一些初步的測(cè)試數(shù)據(jù),能夠構(gòu)建一個(gè)非常簡(jiǎn)陋的模型,然后我們能夠把這個(gè)模型植入到生產(chǎn)系統(tǒng),或者是雙生子系統(tǒng)當(dāng)中,去反復(fù)地學(xué)習(xí)迭代模擬,直到它達(dá)到一個(gè)比較好的效果之后,然后就把它真正地應(yīng)用到我們希望應(yīng)用的場(chǎng)合。

  我想我們要定義這種社會(huì)化大數(shù)據(jù)試驗(yàn),是希望不管是通過(guò)真正的生產(chǎn)系統(tǒng)去做了脫敏(指對(duì)某些敏感信息通過(guò)脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù)的可靠保護(hù))之后,還是我們?cè)谝粋€(gè)非生產(chǎn)、但是高度仿真的雙生子系統(tǒng)當(dāng)中,去把數(shù)據(jù)接入過(guò)來(lái),來(lái)進(jìn)行這種高強(qiáng)度的模擬,這兩種方式希望達(dá)到的都是我們對(duì)于某一種科學(xué)假設(shè)的驗(yàn)證,或者說(shuō)能夠達(dá)到一些對(duì)我們整個(gè)科技發(fā)展都有價(jià)值的試錯(cuò)。所以,當(dāng)科技發(fā)展到今天,我們很多的決策就不再應(yīng)該是拍腦袋的決策,而是應(yīng)該去追求比較高的成功概率,如此一來(lái),社會(huì)化大規(guī)模試驗(yàn)在未來(lái)的學(xué)術(shù)研究和生產(chǎn)實(shí)踐緊密結(jié)合當(dāng)中會(huì)有著越來(lái)越重要的地位。

  很多的傳統(tǒng)行業(yè)并沒(méi)有認(rèn)識(shí)到自己的行業(yè)數(shù)據(jù)里面到底有什么價(jià)值,有什么意義,這是數(shù)據(jù)認(rèn)知的短板。

  業(yè)務(wù)和背后的技術(shù)之間常常有一些沖突,技術(shù)并不能夠了解業(yè)務(wù),業(yè)務(wù)也并不能夠了解技術(shù),這就是一個(gè)場(chǎng)景問(wèn)題。很多時(shí)候我們的期望值是遠(yuǎn)遠(yuǎn)高于我們的技術(shù)發(fā)展,但是無(wú)論怎樣,能夠在傳統(tǒng)行業(yè)的數(shù)據(jù)挖掘、數(shù)據(jù)收集及數(shù)據(jù)清洗到數(shù)據(jù)應(yīng)用里面達(dá)成某一些數(shù)據(jù)認(rèn)知,形成一定的共識(shí),那么幾乎所有技術(shù)都可以在某些地方對(duì)傳統(tǒng)行業(yè)作出一些改變。

  下面這些案例就有很多應(yīng)用場(chǎng)景可以啟發(fā)我們的想象力,正面的場(chǎng)景可以開(kāi)啟我們的想象力,負(fù)面的場(chǎng)景植入則會(huì)誤導(dǎo)我們的想象力。

  

  案例是谷歌試圖在智慧城市做一些場(chǎng)景化的構(gòu)建,在競(jìng)標(biāo)書(shū)中,Sidewalk Labs(Google母公司Alphabet的子公司)提出了各種科技設(shè)想,例如不會(huì)增加空氣中二氧化碳總量的熱能電網(wǎng)、能分揀回收廢物的傳感器、由商用房改建的組合式住房、能跟蹤噪聲和污染情況的監(jiān)控器、無(wú)人駕駛班車(chē)、共享出租車(chē)機(jī)器人、智能交通信號(hào)燈、送貨機(jī)器人,以及能自動(dòng)融化積雪的自行車(chē)道和人行道等。

  

  案例是2017年7月,阿里旗下B2C電商平臺(tái)天貓官微通過(guò)一段視頻向世人展示了一種不一樣的汽車(chē)新零售模式“無(wú)車(chē)售車(chē)”——天貓汽車(chē)自動(dòng)販賣(mài)機(jī),沒(méi)有傳統(tǒng)4S店內(nèi)的售前、售后、收銀等配套服務(wù)人員,消費(fèi)者全程僅通過(guò)對(duì)天貓手機(jī)客戶(hù)端進(jìn)行一系列操作,便可完成一輛新車(chē)從選購(gòu)、預(yù)付款、分期付款業(yè)務(wù)辦理等所有環(huán)節(jié)。

  

  案例是亞馬遜無(wú)人售貨車(chē),未來(lái)感十足的實(shí)體商店,消費(fèi)者只需要走進(jìn)商店并掃描手機(jī)上的Amazon App,挑選自己鐘意的產(chǎn)品裝進(jìn)購(gòu)物袋,然后直接走出商店就可以完成購(gòu)買(mǎi)。無(wú)需排隊(duì),無(wú)需等待結(jié)賬!超前體驗(yàn)的免結(jié)賬購(gòu)物商店正好將亞馬遜很多可控技術(shù)做了拓展和普及應(yīng)用,比如計(jì)算機(jī)視覺(jué)技術(shù)、傳感器和深度學(xué)習(xí)技術(shù)。這些技術(shù)能自動(dòng)監(jiān)測(cè)商品從貨架上取下或放回,并且在虛擬購(gòu)物車(chē)中進(jìn)行跟蹤。亞馬遜免結(jié)賬購(gòu)物商店場(chǎng)景也許就是一個(gè)技術(shù)自然而然地在自己的業(yè)務(wù)模式上的一種延伸。

  

  案例是蘋(píng)果教育的應(yīng)用,這些并不是那么常見(jiàn),但是它確實(shí)能夠做到即便你沒(méi)有需求,我也為你創(chuàng)造需求,這個(gè)就是喬布斯精英主義的驗(yàn)證。如果說(shuō)在沒(méi)有需求、強(qiáng)行創(chuàng)造需求的場(chǎng)景下,這種場(chǎng)景一定要滿(mǎn)足大家的好奇心,要好玩,能夠滿(mǎn)足大家的想象力。

  還有兩個(gè)場(chǎng)景應(yīng)用的成功案例,一個(gè)是電子紙,一個(gè)是谷歌眼鏡。首先,談一下通過(guò)場(chǎng)景轉(zhuǎn)換獲得新市場(chǎng)的電子紙。電子紙從實(shí)驗(yàn)室到落地使用雖然有20年的歷史,但依然處于新生階段,但是在物聯(lián)網(wǎng)驅(qū)動(dòng)的智能城市里面,電子紙技術(shù)變成了絕佳解決方案。例如kindle電子書(shū)運(yùn)用了電子墨水技術(shù),新零售實(shí)體店的電子標(biāo)簽,公交站牌的電子紙顯示器等,這是需求驅(qū)動(dòng)的自然而然的場(chǎng)景轉(zhuǎn)換,它本來(lái)是to c,現(xiàn)在變成一些to b應(yīng)用,廣告業(yè)的需求引導(dǎo)了技術(shù)的方向。

  第二個(gè)是場(chǎng)景轉(zhuǎn)換讓產(chǎn)品起死回生的谷歌眼鏡。剛推出來(lái)的時(shí)候就是希望大家戴著它非??幔瑫r(shí)還推了一款游戲,有點(diǎn)類(lèi)似于后面非?;鸬钠たㄇ鹱バ【`的游戲,叫做搶奪資源點(diǎn)。在實(shí)景當(dāng)中戴著谷歌眼鏡,你就可以去爭(zhēng)奪城市的資源點(diǎn),但是在這個(gè)to c的場(chǎng)景下失敗了,后來(lái)轉(zhuǎn)向了to b,為波音公司提供AI服務(wù),場(chǎng)景轉(zhuǎn)換立刻讓它成為了一個(gè)在精密操作現(xiàn)場(chǎng)的非常重要的輔助工具,戴著谷歌眼鏡使工作效率提升了百分之四五十,做檢修的時(shí)候有一種解放雙手的感覺(jué)。其實(shí)場(chǎng)景并不是我們大腦當(dāng)中非常理性的東西,更多的時(shí)候代表著我們?nèi)祟?lèi)的一種想象力。

  場(chǎng)景的價(jià)值:

  耗費(fèi)大量資源研發(fā)的新技術(shù),需迅速占領(lǐng)市場(chǎng),找到需求方,或創(chuàng)造需求;

  高科技公司通過(guò)場(chǎng)景,占領(lǐng)大眾認(rèn)知,(改為其他?)公司跟進(jìn),以此作為競(jìng)爭(zhēng)策略;

  消費(fèi)級(jí)高科技產(chǎn)品的性能相對(duì)抽象,但單價(jià)較高,預(yù)想多種使用方式,影響消費(fèi)者購(gòu)買(mǎi)意圖;

  高科技產(chǎn)品的市場(chǎng)較為單一,拓展新背景下的新市場(chǎng);

  高科技產(chǎn)品的研發(fā)過(guò)程為技術(shù)導(dǎo)向,社會(huì)文化背景、消費(fèi)者心理認(rèn)知等超出開(kāi)發(fā)預(yù)期,需不斷試錯(cuò),方能找到真實(shí)需求。

  圖為2015年“全球百大思想者”、 美國(guó)斯坦福大學(xué)計(jì)算機(jī)科學(xué)系副教授李飛飛提出來(lái)的場(chǎng)景識(shí)別的概念,更多的是物體、屬性、關(guān)系就可以構(gòu)成場(chǎng)景圖。

  

  衛(wèi)哲跟李飛飛交流過(guò),說(shuō)大概90%的人工智能是偽人工智能。他認(rèn)為偽人工智能就是指沒(méi)有數(shù)據(jù)或者是算法迭代得不夠快的人工智能。他這個(gè)說(shuō)法其實(shí)就是只剩下來(lái)所謂的10%,甚至1%的人工智能是真的人工智能。對(duì)他來(lái)說(shuō),他認(rèn)為這個(gè)就是一種場(chǎng)景化。

  

  還有谷歌在做的AVA數(shù)據(jù)集,英特爾最近在人工智能方向投資的這些案例都可以后臺(tái)回復(fù)關(guān)鍵詞“1107”,下載完整版PPT進(jìn)行了解。

  事實(shí)上場(chǎng)景映射到影像,或者映射到意象,這個(gè)過(guò)程依賴(lài)的不是一個(gè)理性過(guò)程,而是充分依賴(lài)于我們的想象力。

  我們做語(yǔ)音識(shí)別或者是圖像識(shí)別的時(shí)候,在我們語(yǔ)言學(xué)的語(yǔ)境當(dāng)中都叫做語(yǔ)碼轉(zhuǎn)化,只不過(guò)是跨符號(hào)平臺(tái)的語(yǔ)碼轉(zhuǎn)化。因?yàn)橛脗鹘y(tǒng)的分析方法,詞、短語(yǔ)、句子、篇章,這個(gè)是我們用結(jié)構(gòu)主義語(yǔ)言學(xué)給語(yǔ)言或大或小的單位給出的定義。一般來(lái)講,詞對(duì)應(yīng)的是一個(gè)概念,句子對(duì)應(yīng)的是一個(gè)命題,概念和命題當(dāng)然是邏輯學(xué)里面的一些基本要素?,F(xiàn)在隨著語(yǔ)言學(xué)和腦科學(xué)的發(fā)展,可以認(rèn)為詞這個(gè)單位在大腦里面是以數(shù)據(jù)的方式來(lái)儲(chǔ)存。

  人工智能包括數(shù)據(jù)、算法和計(jì)算,對(duì)應(yīng)到語(yǔ)言里面,我們可以認(rèn)為數(shù)據(jù)是詞,從詞到句子這個(gè)過(guò)程肯定是通過(guò)句法這種算法來(lái)實(shí)現(xiàn),完成計(jì)算的結(jié)果就是生成一個(gè)句子。在這個(gè)比喻過(guò)程中,我們會(huì)發(fā)現(xiàn)傳統(tǒng)結(jié)構(gòu)語(yǔ)言學(xué)的短語(yǔ)并不出現(xiàn)在語(yǔ)言表層,現(xiàn)在用基于統(tǒng)計(jì)的一套自然語(yǔ)言處理的方式,也完全可以不去處理短語(yǔ)這個(gè)層級(jí)。而短語(yǔ)在邏輯里面對(duì)應(yīng)的到底是什么?篇章在邏輯里面又對(duì)應(yīng)的是什么?或者說(shuō)篇章在計(jì)算領(lǐng)域里面對(duì)應(yīng)的又是什么?我們可以作出這樣一種假設(shè)。

  

  如果我們把一個(gè)短語(yǔ),即一個(gè)非句子的片段,理解為在我們大腦里面起起伏伏的場(chǎng)景,那么篇章就可以理解為這些場(chǎng)景所構(gòu)建出來(lái)的一個(gè)連續(xù)的影像,或者稱(chēng)之為動(dòng)畫(huà)。當(dāng)腦子里面浮想聯(lián)翩的時(shí)候,確實(shí)存在大量碎片化的意象,各種各樣的場(chǎng)景在我們腦子里面飄來(lái)飄去,充滿(mǎn)著不確定性。一旦我們希望把它組織成為一個(gè)有條理的句子,并且把它講述出來(lái)的時(shí)候,就會(huì)依賴(lài)于句法理性。

  針對(duì)語(yǔ)言存在兩種不同的天賦,一種天賦可能就是理性的語(yǔ)言表達(dá)的天賦,這種天賦按喬姆斯基的說(shuō)法來(lái)看是每一個(gè)人都有的,就是UG普遍語(yǔ)法(自20世紀(jì)50年代喬姆斯基發(fā)表《句法結(jié)構(gòu)》一書(shū)以來(lái),他所引領(lǐng)的轉(zhuǎn)換生成語(yǔ)言學(xué)在語(yǔ)言學(xué)界掀起了軒然大波,而作為該語(yǔ)言學(xué)派之靈魂和核心的普遍語(yǔ)法理論更是受到了廣泛的關(guān)注),另外一種天賦就是我們的創(chuàng)造天賦,有的人會(huì)寫(xiě)出大量的錯(cuò)別字,文不通,字不順,但是他寫(xiě)的文章卻會(huì)非常地有吸引力。這種時(shí)候我們認(rèn)為在他的大腦里,他能夠把他的經(jīng)驗(yàn)場(chǎng)景化,并且能夠把場(chǎng)景很好地連綴起來(lái)。

  如果這種連綴的過(guò)程對(duì)應(yīng)到計(jì)算機(jī)領(lǐng)域,我們需要的并不是嚴(yán)格的句法分析和邏輯推理,而是另外一種算法,這種算法我們把它命名為語(yǔ)義篩,用一個(gè)經(jīng)驗(yàn)領(lǐng)域的知識(shí)圖譜來(lái)充當(dāng)語(yǔ)義篩子,讓大量的場(chǎng)景從這個(gè)篩子過(guò)一遍,可以取兩個(gè)結(jié)果,要么把留在篩子里面的作為有價(jià)值的內(nèi)容,要么把從篩子里篩出去的東西作為有價(jià)值的內(nèi)容,這塊作為一個(gè)假設(shè),我們正在試圖去實(shí)現(xiàn)。

  驗(yàn)證流程大致如下,針對(duì)場(chǎng)景這樣一個(gè)對(duì)象,首先找到一個(gè)可能可行的、模糊的、粗糙的語(yǔ)義模型,然后用社會(huì)化大規(guī)模試驗(yàn)的方式,把這個(gè)模型推到某一個(gè)大規(guī)模的數(shù)據(jù)環(huán)境當(dāng)中去,讓它反復(fù)地跑完之后來(lái)驗(yàn)證是不是在語(yǔ)言當(dāng)中存在著兩種不同的層級(jí),一個(gè)層級(jí)是基于理性的層級(jí),純粹接受邏輯,接受語(yǔ)法規(guī)則支配的這樣一些表達(dá)式。而另外一個(gè)層級(jí)就是來(lái)自于我們的想象,來(lái)自于我們的體驗(yàn),來(lái)自于我們對(duì)于這個(gè)現(xiàn)實(shí)世界經(jīng)驗(yàn)的拼湊,來(lái)自于我們每個(gè)人對(duì)于世界的不同切分,來(lái)自于非常豐富的復(fù)雜主題。

  當(dāng)我們?cè)趯?shí)際的環(huán)境當(dāng)中去收集、整理數(shù)據(jù)之后,如何讓這些數(shù)據(jù)拼湊成為場(chǎng)景,讓它們能夠?yàn)槲覀冞M(jìn)行一些愉悅身心的創(chuàng)作,這個(gè)問(wèn)題可能是我們需要嘗試解決的問(wèn)題。現(xiàn)在人工智能比較關(guān)心的場(chǎng)景識(shí)別,并不能激發(fā)出創(chuàng)造的天賦,對(duì)創(chuàng)造和想像力本身的模擬,才是場(chǎng)景數(shù)據(jù)化的發(fā)展方向。

責(zé)任編輯:黃玉葉

分享: