一文了解AI時代的數(shù)據(jù)風(fēng)險（后真相時代、算法囚徒和權(quán)利讓渡）

來源：THU數(shù)據(jù)派時間：2018-11-08 16:15:42 作者：

當(dāng)今，在基于數(shù)據(jù)的個性化推薦算法機制滿足了人們獵奇心、窺探欲、表演欲，讓人們在網(wǎng)絡(luò)中尋找到共鳴感和認同感時，我們未曾意識到一些新問題和新風(fēng)險的出現(xiàn)。這些新問題和風(fēng)險能夠影響個人對世界的認知，影響群體達成共識，甚至影響到整個時代的價值觀。根據(jù)清華新聞與傳播學(xué)院彭蘭教授的觀點，目前數(shù)據(jù)時代所面臨的風(fēng)險來自以下幾個方面：

客觀性數(shù)據(jù)可能成為后真相時代的另一種推手；

個性化算法雖然帶來了個人信息服務(wù)水平的提升，但也給人們帶來偏見、歧視、思想被禁錮等困擾；

相關(guān)權(quán)利保護則受到更多挑戰(zhàn)，特別是在隱私權(quán)和被遺忘權(quán)方面。

下面，我們將進行詳細解讀。

一文了解AI時代的數(shù)據(jù)風(fēng)險（后真相時代、算法囚徒和權(quán)利讓渡）

風(fēng)險一：大數(shù)據(jù)帶來的假象

2016年，《牛津英語詞典》將“后真相”（post-truth）作為年度詞匯，揭示世界進入了后真相時代。羅輯思維曾對該名詞做出一個精辟的總結(jié)：“過去，我們相信認知源于事實；現(xiàn)在，認知本身就是事實”。

這其中原因，技術(shù)自然逃離不了干系。例如谷歌和臉書等公司開發(fā)的算法是基于用戶從前的搜索和點擊進行的，隨著每次搜索和每次點擊，用戶就發(fā)現(xiàn)自己的偏見再次得到確認。如今的社交媒體已成為大部分人獲得新聞信息的主要渠道，其中的推薦算法機制引導(dǎo)我們進入觀念類似者的小群體空間內(nèi)，它只為用戶提供他們喜歡、或選擇相信的信息，是否真實并不重要。

后真相現(xiàn)象提醒我們，數(shù)據(jù)與算法這些看上去客觀的手段與方法，并不一定能帶來更多真相，反而可能走向它的反面。如果應(yīng)用數(shù)據(jù)的過程不遵守一套完整的規(guī)范，或者在數(shù)據(jù)應(yīng)用中出現(xiàn)了漏洞而未能察覺，未來我們或許會被更多由貌似客觀的數(shù)據(jù)堆積成的假象所包圍。根據(jù)彭蘭教授的觀點，數(shù)據(jù)生產(chǎn)的每一個步驟都存在導(dǎo)致假象的風(fēng)險：

1. 數(shù)據(jù)樣本偏差帶來的“以偏概全”

盡管已經(jīng)進入到“大數(shù)據(jù)”時代，而大數(shù)據(jù)的賣點之一是“全樣本”，但事實上，在現(xiàn)實中，獲得“全樣本”并不是一件容易的事。

在國內(nèi)，由于歷史原因，很多行業(yè)本身就缺乏完整、系統(tǒng)的數(shù)據(jù)積累，或者由于隱私、信息安全等問題，能公開的只有不完整的數(shù)據(jù)。譬如醫(yī)療行業(yè)和政府部門，如何打破信息孤島，在哪種程度范圍內(nèi)做到公開、透明、共享，依舊是急需攻克的難題。

至于互聯(lián)網(wǎng)數(shù)據(jù)則更是資源緊缺。目前互聯(lián)網(wǎng)數(shù)據(jù)都被少數(shù)擁有巨大流量的平臺壟斷，其他中小型企業(yè)由于先天數(shù)據(jù)不足的缺陷，只能依賴于網(wǎng)絡(luò)爬蟲從這些大平臺爬取數(shù)據(jù)。此前馬蜂窩被爆1800萬條以上的所謂真實用戶數(shù)據(jù)是抄襲自其他OTA平臺，暴露了互聯(lián)網(wǎng)行業(yè)普遍數(shù)據(jù)造假的潛規(guī)則。所以，用戶所看到的對一個酒店或餐廳的好評，并不一定是真實信息，很有可能由網(wǎng)絡(luò)機器人爬取而來。如果說數(shù)據(jù)缺失能夠?qū)е隆耙云湃?，?shù)據(jù)造假則是直接簡單粗暴地蒙蔽用戶了?？傊?，行業(yè)數(shù)據(jù)可能存在樣本不完整的問題，這也必然對數(shù)據(jù)分析結(jié)果的完整性、代表性產(chǎn)生影響。

一文了解AI時代的數(shù)據(jù)風(fēng)險（后真相時代、算法囚徒和權(quán)利讓渡）

2. “臟數(shù)據(jù)”帶來的污染

除了樣本的問題外，用各種方式獲取的數(shù)據(jù)，本身質(zhì)量也可能存在問題。部分缺失的數(shù)據(jù)、重復(fù)的數(shù)據(jù)、失效的數(shù)據(jù)、造假的數(shù)據(jù)等，都被稱為 “臟數(shù)據(jù)”。盡管數(shù)據(jù)處理前都會要求數(shù)據(jù)清洗，但這未必能完全消除臟數(shù)據(jù)帶來的污染。某些數(shù)據(jù)分析者也可能因為一些原因無視臟數(shù)據(jù)的存在，甚至?xí)圃煲恍┡K數(shù)據(jù)。

此前人工智能對話系統(tǒng)微軟小冰剛上線時，由于她是用實時對話的數(shù)據(jù)進行訓(xùn)練的，所以用戶給她一些不好的對話后，導(dǎo)致小冰飆臟話就是數(shù)據(jù)污染的很直接例證。不久前，亞馬遜的AI招聘系統(tǒng)被爆出性別歧視也是同樣道理。從技術(shù)上講，機器學(xué)習(xí)過程不會引入任何偏差，但訓(xùn)練數(shù)據(jù)中存在的任何偏差都將在算法中忠實地展現(xiàn)出來。AI的性別歧視，只是成功模仿了亞馬遜當(dāng)前的招聘狀態(tài)。

因此，數(shù)據(jù)質(zhì)量永遠是數(shù)據(jù)分析立項后首先要考慮的。首先要理解數(shù)據(jù)來源、數(shù)據(jù)統(tǒng)計和收集邏輯、數(shù)據(jù)入庫處理邏輯；其次是理解數(shù)據(jù)在數(shù)據(jù)倉庫中是如何存放的，字段類型、小數(shù)點位數(shù)、取值范圍，規(guī)則約束如何定義的；第三是明確數(shù)據(jù)的取數(shù)邏輯，尤其是從數(shù)據(jù)倉庫中如何用SQL取數(shù)的，其中特別是對數(shù)據(jù)有沒有經(jīng)過轉(zhuǎn)換和重新定義；第四是拿到數(shù)據(jù)后必須要有數(shù)據(jù)審查的過程，包括數(shù)據(jù)有效性驗證、取值范圍、空值和異常值處理等。當(dāng)這些工作都做充足之后才能進行下一步分析。

3. 數(shù)據(jù)分析模型偏差帶來的方向性錯誤

在美國暢銷書《大規(guī)模殺傷數(shù)器：大數(shù)據(jù)如何加深不公和危害民主》中，作者提到現(xiàn)在的數(shù)據(jù)科學(xué)家，習(xí)慣用模擬的方式概括人類的行為，以群體畫像推導(dǎo)個人行為，依此判定。這本質(zhì)上沒有問題，問題出在反饋上：大部分的模型根本沒有矯正的環(huán)節(jié)，如果模型的結(jié)果有偏差，系統(tǒng)本身無從得知，根據(jù)錯誤結(jié)果持續(xù)優(yōu)化，最終反而變本加厲。此外，作者還認為建立怎樣的數(shù)據(jù)分析模型取決于我們自己，我們的價值觀、我們的欲望，影響我們種種決策：收集哪些數(shù)據(jù)，提起什么樣的問題。所謂的模型，是指內(nèi)嵌于數(shù)學(xué)的觀點。

一文了解AI時代的數(shù)據(jù)風(fēng)險（后真相時代、算法囚徒和權(quán)利讓渡）

除了以上三個環(huán)節(jié)可能造成假象外，包括數(shù)據(jù)挖掘能力有限、數(shù)據(jù)解讀能力有限，都有可能帶來偏差?？傊?，當(dāng)今的某些大數(shù)據(jù)分析在某種意義上就是在分析甚至“制造”人們的視角，然后將符合視角的“事實”推送給他們，雖然推送的“事實”似乎是客觀的，但是，當(dāng)它們被放置在人們的“視角”下時，就成為了影響主觀判斷和態(tài)度的重要手段。

2016年美國總統(tǒng)大選，多家民調(diào)機構(gòu)的預(yù)測結(jié)果的失敗，讓人們質(zhì)疑數(shù)據(jù)的客觀性與準(zhǔn)確性。而時隔兩年之后曝出的Facebook數(shù)據(jù)泄露事件，在某種意義上是對民調(diào)結(jié)果失靈的一個回應(yīng)，盡管我們并不能確定劍橋分析公司對大選結(jié)果的干預(yù)究竟起了多大作用。這一事件還有著更深層的寓意，它提醒我們面臨的一個新挑戰(zhàn)：一方面，數(shù)據(jù)分析的目標(biāo)是追求客觀地描述事物；另一方面，數(shù)據(jù)分析也可能會成為對客觀事物或客觀進程的干預(yù)力量?？梢灶A(yù)見的是，未來兩者之間的博弈可能會成為常態(tài)。

風(fēng)險二：數(shù)據(jù)時代個人所面臨的風(fēng)險

在大數(shù)據(jù)時代，從個人角度看，目前數(shù)據(jù)應(yīng)用與他們最直接的關(guān)聯(lián)，是各種具有個性化算法推薦的應(yīng)用。但事實上，這種算法既會對個人視野格局產(chǎn)生影響，也會暴露用戶隱私。

1. 算法是否會將人們囚禁在信息繭房中？

“信息繭房”一詞出自于美國學(xué)者桑斯坦，在他看來，信息繭房意味著人們只聽他們選擇和愉悅他們的東西。

盡管每個人都有自己的閱讀偏好是正常的現(xiàn)象，但如果每個人關(guān)注的只是自己興趣內(nèi)的那一小片天地，他對這以外的世界，就會越來越缺乏了解。這或許不會影響到他個人的生活，但是，在需要公共對話的時候，人們會缺乏共同的 “視角”。而共同 “視角”的缺乏，意味著人們對一些事實的判斷會出現(xiàn)差異，共識難以形成。同時，信息環(huán)境的封閉與狹隘，也可能會進一步固化人們的某些觀點與立場。

一文了解AI時代的數(shù)據(jù)風(fēng)險（后真相時代、算法囚徒和權(quán)利讓渡）

從面向個人的算法角度看，要盡可能減少信息繭房效應(yīng)，就要在算法設(shè)計時深入理解考慮用戶行為與需求中的矛盾，例如能夠及時預(yù)測用戶需求的遷移或擴展，或者提供一些慣性之外的信息，給個體帶來新體驗等。

除了以算法來完成面向個體的內(nèi)容推薦，算法也可以用于公共性內(nèi)容的匹配，也就是通過算法洞察公眾的共同心理，使具有公共價值的內(nèi)容到達更廣的人群，也同樣可能幫助個體掙脫繭房的束縛。

2. 算法是否會將人們囚禁在偏見與固有的社會結(jié)構(gòu)中？

算法的另一種風(fēng)險，是對社會偏見的繼承，以及這些偏見可能帶來的文化或社會禁錮。當(dāng)算法用于不當(dāng)?shù)哪康臅r，會對某些人群或個體造成歧視與傷害。算法不僅在歸納與“同構(gòu)”現(xiàn)有文化中存在偏見、歧視，還可能用某種方式將它們放大。譬如此前舉例的亞馬遜AI招聘系統(tǒng)性別歧視一樣，機器的歧視來自于數(shù)據(jù)的偏差，而數(shù)據(jù)的偏差來自于人的偏見。

這一點，一些大數(shù)據(jù)的開發(fā)者體會更深，如國內(nèi)大數(shù)據(jù)應(yīng)用領(lǐng)域的代表性學(xué)者周濤所言，“讓我們不安的是，這種因為系統(tǒng)設(shè)計人員帶來的初始偏見，有可能隨著數(shù)據(jù)的積累和算法的運轉(zhuǎn)慢慢強化放大?！?/p>

3. 算法是否會使人陷入“幸福地被操縱”？

或許，個性化算法還會帶來另一個深層風(fēng)險，那就是在個性化服務(wù)下，個體逐漸失去自主判斷與選擇能力，越來越多地被算法或機器控制。從人的本性來說，懶惰是天然的，想以最小的成本或付出獲得最大的報償，是人之常情，個性化服務(wù)在這方面迎合了人性，但是，它也可能正在以方便、幸福的名義，漸漸地使人們對它產(chǎn)生依賴，并在不知不覺中被其麻痹，被其囚禁。

一文了解AI時代的數(shù)據(jù)風(fēng)險（后真相時代、算法囚徒和權(quán)利讓渡）

風(fēng)險三個人權(quán)利的讓渡是數(shù)據(jù)時代的必然代價？

數(shù)據(jù)時代對普通個體的另一個深層影響，是個體的全面數(shù)據(jù)化。在未來，用戶的數(shù)據(jù)將更為多元，將通過更多渠道生成、保存，這也意味著用戶數(shù)據(jù)中暗藏的風(fēng)險更大，數(shù)據(jù)權(quán)利的保護面臨更大的挑戰(zhàn)。

1. 用戶缺乏對自己數(shù)據(jù)的知情能力

此前李彥宏一句“中國人對隱私問題不敏感，愿意用隱私換取便利、安全或者效率”的言論讓自己成為眾矢之的。事實上，對于普通用戶而言，并非他們不介意隱私被暴露，而是并不知道自己的隱私會如何被侵犯，以及被侵犯到何種程度。他們與那些掌握并利用甚至可能出賣他們的隱私數(shù)據(jù)的公司之間是不平等的。在缺乏對自己數(shù)據(jù)的知情能力的情況下，隱私保護根本無從談起。

雖然在某些時候，以隱私換便利是用戶的一種不得已的選擇，但用戶應(yīng)該有權(quán)利知道，出讓的是哪些隱私數(shù)據(jù)，能獲取哪些便利，以便他們做出權(quán)衡。但今天的網(wǎng)絡(luò)服務(wù)提供者多數(shù)并沒有提供充分的解釋，即使有一些隱私條款，也往往語焉不詳或者暗藏陷阱。

2. 用戶數(shù)據(jù)的邊界問題值得探討

此外，還有用戶數(shù)據(jù)使用權(quán)限邊界問題。譬如之前第三方公司劍橋分析利用心理測試APP來收集Facebook用戶數(shù)據(jù)一樣。即使用戶同意向某個服務(wù)商提供個人信息，但服務(wù)商是否有權(quán)向第三方透露？而第三方是否又可以再次將數(shù)據(jù)轉(zhuǎn)手？網(wǎng)絡(luò)中的數(shù)據(jù)都是相互關(guān)聯(lián)的，獲取未經(jīng)授權(quán)的關(guān)聯(lián)數(shù)據(jù)是否合法？或許在理論上做出限定是容易的，但在現(xiàn)實中的操作，又并非那么簡單。

3. 用戶是否應(yīng)該擁有絕對隱身的權(quán)利

再一個事關(guān)用戶隱私權(quán)的問題是，今天的用戶是否應(yīng)該擁有一種隱身能力，使自己的數(shù)據(jù)不被他人獲取或存儲，從而在根本上保護自己?；蛟S，這在國內(nèi)將很難被執(zhí)行。譬如人臉識別技術(shù)已被廣泛用于街頭巷尾的攝像頭，盡管“天眼”織就“天網(wǎng)”讓罪犯無處可逃，而對于普通個體而言，同樣讓人感覺到這是一種無處不在的監(jiān)視。

在個體被隨時隨地“數(shù)字化”映射的情況下，隱身，也是保護隱私的一個重要方面。雖然在法律上要獨立形成一種“隱身權(quán)”或許并不現(xiàn)實（它更有可能是隱私權(quán)中的一部分），但至少在技術(shù)層面，需要給予用戶更多的“隱身”可能。在物聯(lián)網(wǎng)將廣泛應(yīng)用的未來，隱身許可將變得更為重要。

4. 保護用戶隱私的法律并不能完全保護隱私

在保護用戶隱私的法律方面，2012年歐盟出臺《一般數(shù)據(jù)保護條例》，稱信息主體有權(quán)要求信息控制者刪除與其個人相關(guān)的資料信息。該權(quán)利被稱為被遺忘及擦除權(quán)。在國內(nèi)，2016年頒布的《網(wǎng)絡(luò)安全法》正式確認了個人對其網(wǎng)上個人信息的“刪除權(quán)”：“個人發(fā)現(xiàn)網(wǎng)絡(luò)運營者違反法律、行政法規(guī)的規(guī)定或者雙方的約定收集、使用其個人信息的，有權(quán)要求網(wǎng)絡(luò)運營者刪除其個人信息?！边@些都是對數(shù)字時代個人信息的存留風(fēng)險做出的法律回應(yīng)。

不過，目前被遺忘權(quán)或刪除權(quán)更多地是在學(xué)界和法律界被討論，大多數(shù)普通人并不知道它的存在。并且，即使有被遺忘權(quán)或刪除權(quán)，個體也會面臨比以往更多的風(fēng)險。雖然謹言慎行或許是人們自認為的減少風(fēng)險的辦法，但在算法通過若干點贊就可以判斷用戶的性格的情況下，在未來各種傳感器可以隨時隨地捕捉人的數(shù)據(jù)的情況下，被記憶仍會是常態(tài)。

一文了解AI時代的數(shù)據(jù)風(fēng)險（后真相時代、算法囚徒和權(quán)利讓渡）

以上是對數(shù)據(jù)與算法時代可能面臨風(fēng)險的探討。盡管數(shù)據(jù)與算法應(yīng)用的價值不可否定，但我們需要對數(shù)據(jù)和算法應(yīng)用的失誤或失范有足夠的警惕，也需要增強對抗風(fēng)險的能力。在國內(nèi)，由于觀念、基礎(chǔ)條件、規(guī)范等方面的障礙，都意味著大數(shù)據(jù)應(yīng)用的推進需要時間。任何功利、草率的思維和行為都是對數(shù)據(jù)應(yīng)用的損害而非推動。在數(shù)據(jù)技術(shù)的大躍進過程中，我們也需要回歸原點，完成一些基本建設(shè)，譬如數(shù)據(jù)素養(yǎng)的培養(yǎng)、數(shù)據(jù)資源基礎(chǔ)設(shè)施建設(shè)、數(shù)據(jù)質(zhì)量評估體系建立、信息倫理規(guī)范的約束等。在這個時代，數(shù)據(jù)、算法將會成為決定我們生存方式的重要因素。識別、抵抗這其中的種種風(fēng)險，也應(yīng)該成為我們生活的一部分，成為各種數(shù)據(jù)應(yīng)用機構(gòu)的基本責(zé)任。

責(zé)任編輯：陳近梅

精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

一文了解AI時代的數(shù)據(jù)風(fēng)險（后真相時代、算法囚徒和權(quán)利讓渡）

一文了解AI時代的數(shù)據(jù)風(fēng)險（后真相時代、算法囚徒和權(quán)利讓渡）