精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

首頁 自媒自媒體 THU數(shù)據(jù)派正文

一文了解AI時代的數(shù)據(jù)風(fēng)險(后真相時代、算法囚徒和權(quán)利讓渡)

當(dāng)今,在基于數(shù)據(jù)的個性化推薦算法機制滿足了人們獵奇心、窺探欲、表演欲,讓人們在網(wǎng)絡(luò)中尋找到共鳴感和認同感時,我們未曾意識到一些新問題和新風(fēng)險的出現(xiàn)。這些新問題和風(fēng)險能夠影響個人對世界的認知,影響群體達成共識,甚至影響到整個時代的價值觀。根據(jù)清華新聞與傳播學(xué)院彭蘭教授的觀點,目前數(shù)據(jù)時代所面臨的風(fēng)險來自以下幾個方面:

客觀性數(shù)據(jù)可能成為后真相時代的另一種推手;

個性化算法雖然帶來了個人信息服務(wù)水平的提升,但也給人們帶來偏見、歧視、思想被禁錮等困擾;

相關(guān)權(quán)利保護則受到更多挑戰(zhàn),特別是在隱私權(quán)和被遺忘權(quán)方面。

下面,我們將進行詳細解讀。

一文了解AI時代的數(shù)據(jù)風(fēng)險(后真相時代、算法囚徒和權(quán)利讓渡)

?

風(fēng)險一:大數(shù)據(jù)帶來的假象

2016年,《牛津英語詞典》將“后真相”(post-truth)作為年度詞匯,揭示世界進入了后真相時代。羅輯思維曾對該名詞做出一個精辟的總結(jié):“過去,我們相信認知源于事實;現(xiàn)在,認知本身就是事實”。

這其中原因,技術(shù)自然逃離不了干系。例如谷歌和臉書等公司開發(fā)的算法是基于用戶從前的搜索和點擊進行的,隨著每次搜索和每次點擊,用戶就發(fā)現(xiàn)自己的偏見再次得到確認。如今的社交媒體已成為大部分人獲得新聞信息的主要渠道,其中的推薦算法機制引導(dǎo)我們進入觀念類似者的小群體空間內(nèi),它只為用戶提供他們喜歡、或選擇相信的信息,是否真實并不重要。

后真相現(xiàn)象提醒我們,數(shù)據(jù)與算法這些看上去客觀的手段與方法,并不一定能帶來更多真相,反而可能走向它的反面。如果應(yīng)用數(shù)據(jù)的過程不遵守一套完整的規(guī)范,或者在數(shù)據(jù)應(yīng)用中出現(xiàn)了漏洞而未能察覺,未來我們或許會被更多由貌似客觀的數(shù)據(jù)堆積成的假象所包圍。根據(jù)彭蘭教授的觀點,數(shù)據(jù)生產(chǎn)的每一個步驟都存在導(dǎo)致假象的風(fēng)險:

1. 數(shù)據(jù)樣本偏差帶來的“以偏概全”

盡管已經(jīng)進入到“大數(shù)據(jù)”時代,而大數(shù)據(jù)的賣點之一是“全樣本”,但事實上,在現(xiàn)實中,獲得“全樣本”并不是一件容易的事。

在國內(nèi),由于歷史原因,很多行業(yè)本身就缺乏完整、系統(tǒng)的數(shù)據(jù)積累,或者由于隱私、信息安全等問題,能公開的只有不完整的數(shù)據(jù)。譬如醫(yī)療行業(yè)和政府部門,如何打破信息孤島,在哪種程度范圍內(nèi)做到公開、透明、共享,依舊是急需攻克的難題。

至于互聯(lián)網(wǎng)數(shù)據(jù)則更是資源緊缺。目前互聯(lián)網(wǎng)數(shù)據(jù)都被少數(shù)擁有巨大流量的平臺壟斷,其他中小型企業(yè)由于先天數(shù)據(jù)不足的缺陷,只能依賴于網(wǎng)絡(luò)爬蟲從這些大平臺爬取數(shù)據(jù)。此前馬蜂窩被爆1800萬條以上的所謂真實用戶數(shù)據(jù)是抄襲自其他OTA平臺,暴露了互聯(lián)網(wǎng)行業(yè)普遍數(shù)據(jù)造假的潛規(guī)則。所以,用戶所看到的對一個酒店或餐廳的好評,并不一定是真實信息,很有可能由網(wǎng)絡(luò)機器人爬取而來。如果說數(shù)據(jù)缺失能夠?qū)е隆耙云湃?,?shù)據(jù)造假則是直接簡單粗暴地蒙蔽用戶了??傊?,行業(yè)數(shù)據(jù)可能存在樣本不完整的問題,這也必然對數(shù)據(jù)分析結(jié)果的完整性、代表性產(chǎn)生影響。

一文了解AI時代的數(shù)據(jù)風(fēng)險(后真相時代、算法囚徒和權(quán)利讓渡)

2. “臟數(shù)據(jù)”帶來的污染

除了樣本的問題外,用各種方式獲取的數(shù)據(jù),本身質(zhì)量也可能存在問題。部分缺失的數(shù)據(jù)、重復(fù)的數(shù)據(jù)、失效的數(shù)據(jù)、造假的數(shù)據(jù)等,都被稱為 “臟數(shù)據(jù)”。盡管數(shù)據(jù)處理前都會要求數(shù)據(jù)清洗,但這未必能完全消除臟數(shù)據(jù)帶來的污染。某些數(shù)據(jù)分析者也可能因為一些原因無視臟數(shù)據(jù)的存在,甚至?xí)圃煲恍┡K數(shù)據(jù)。

此前人工智能對話系統(tǒng)微軟小冰剛上線時,由于她是用實時對話的數(shù)據(jù)進行訓(xùn)練的,所以用戶給她一些不好的對話后,導(dǎo)致小冰飆臟話就是數(shù)據(jù)污染的很直接例證。不久前,亞馬遜的AI招聘系統(tǒng)被爆出性別歧視也是同樣道理。從技術(shù)上講,機器學(xué)習(xí)過程不會引入任何偏差,但訓(xùn)練數(shù)據(jù)中存在的任何偏差都將在算法中忠實地展現(xiàn)出來。AI的性別歧視,只是成功模仿了亞馬遜當(dāng)前的招聘狀態(tài)。

因此,數(shù)據(jù)質(zhì)量永遠是數(shù)據(jù)分析立項后首先要考慮的。首先要理解數(shù)據(jù)來源、數(shù)據(jù)統(tǒng)計和收集邏輯、數(shù)據(jù)入庫處理邏輯;其次是理解數(shù)據(jù)在數(shù)據(jù)倉庫中是如何存放的,字段類型、小數(shù)點位數(shù)、取值范圍,規(guī)則約束如何定義的;第三是明確數(shù)據(jù)的取數(shù)邏輯,尤其是從數(shù)據(jù)倉庫中如何用SQL取數(shù)的,其中特別是對數(shù)據(jù)有沒有經(jīng)過轉(zhuǎn)換和重新定義;第四是拿到數(shù)據(jù)后必須要有數(shù)據(jù)審查的過程,包括數(shù)據(jù)有效性驗證、取值范圍、空值和異常值處理等。當(dāng)這些工作都做充足之后才能進行下一步分析。

3. 數(shù)據(jù)分析模型偏差帶來的方向性錯誤

在美國暢銷書《大規(guī)模殺傷數(shù)器:大數(shù)據(jù)如何加深不公和危害民主》中,作者提到現(xiàn)在的數(shù)據(jù)科學(xué)家,習(xí)慣用模擬的方式概括人類的行為,以群體畫像推導(dǎo)個人行為,依此判定。這本質(zhì)上沒有問題,問題出在反饋上:大部分的模型根本沒有矯正的環(huán)節(jié),如果模型的結(jié)果有偏差,系統(tǒng)本身無從得知,根據(jù)錯誤結(jié)果持續(xù)優(yōu)化,最終反而變本加厲。此外,作者還認為建立怎樣的數(shù)據(jù)分析模型取決于我們自己,我們的價值觀、我們的欲望,影響我們種種決策:收集哪些數(shù)據(jù),提起什么樣的問題。所謂的模型,是指內(nèi)嵌于數(shù)學(xué)的觀點。

一文了解AI時代的數(shù)據(jù)風(fēng)險(后真相時代、算法囚徒和權(quán)利讓渡)

除了以上三個環(huán)節(jié)可能造成假象外,包括數(shù)據(jù)挖掘能力有限、數(shù)據(jù)解讀能力有限,都有可能帶來偏差??傊?,當(dāng)今的某些大數(shù)據(jù)分析在某種意義上就是在分析甚至“制造”人們的視角,然后將符合視角的“事實”推送給他們,雖然推送的“事實”似乎是客觀的,但是,當(dāng)它們被放置在人們的“視角”下時,就成為了影響主觀判斷和態(tài)度的重要手段。

2016年美國總統(tǒng)大選,多家民調(diào)機構(gòu)的預(yù)測結(jié)果的失敗,讓人們質(zhì)疑數(shù)據(jù)的客觀性與準(zhǔn)確性。而時隔兩年之后曝出的Facebook數(shù)據(jù)泄露事件,在某種意義上是對民調(diào)結(jié)果失靈的一個回應(yīng),盡管我們并不能確定劍橋分析公司對大選結(jié)果的干預(yù)究竟起了多大作用。這一事件還有著更深層的寓意,它提醒我們面臨的一個新挑戰(zhàn):一方面,數(shù)據(jù)分析的目標(biāo)是追求客觀地描述事物;另一方面,數(shù)據(jù)分析也可能會成為對客觀事物或客觀進程的干預(yù)力量??梢灶A(yù)見的是,未來兩者之間的博弈可能會成為常態(tài)。

?

風(fēng)險二:數(shù)據(jù)時代個人所面臨的風(fēng)險

在大數(shù)據(jù)時代,從個人角度看,目前數(shù)據(jù)應(yīng)用與他們最直接的關(guān)聯(lián),是各種具有個性化算法推薦的應(yīng)用。但事實上,這種算法既會對個人視野格局產(chǎn)生影響,也會暴露用戶隱私。

1. 算法是否會將人們囚禁在信息繭房中?

“信息繭房”一詞出自于美國學(xué)者桑斯坦,在他看來,信息繭房意味著人們只聽他們選擇和愉悅他們的東西。

盡管每個人都有自己的閱讀偏好是正常的現(xiàn)象,但如果每個人關(guān)注的只是自己興趣內(nèi)的那一小片天地,他對這以外的世界,就會越來越缺乏了解。這或許不會影響到他個人的生活,但是,在需要公共對話的時候,人們會缺乏共同的 “視角”。而共同 “視角”的缺乏,意味著人們對一些事實的判斷會出現(xiàn)差異,共識難以形成。同時,信息環(huán)境的封閉與狹隘,也可能會進一步固化人們的某些觀點與立場。

一文了解AI時代的數(shù)據(jù)風(fēng)險(后真相時代、算法囚徒和權(quán)利讓渡)

從面向個人的算法角度看,要盡可能減少信息繭房效應(yīng),就要在算法設(shè)計時深入理解考慮用戶行為與需求中的矛盾,例如能夠及時預(yù)測用戶需求的遷移或擴展,或者提供一些慣性之外的信息,給個體帶來新體驗等。

除了以算法來完成面向個體的內(nèi)容推薦,算法也可以用于公共性內(nèi)容的匹配,也就是通過算法洞察公眾的共同心理,使具有公共價值的內(nèi)容到達更廣的人群,也同樣可能幫助個體掙脫繭房的束縛。

2. 算法是否會將人們囚禁在偏見與固有的社會結(jié)構(gòu)中?

算法的另一種風(fēng)險,是對社會偏見的繼承,以及這些偏見可能帶來的文化或社會禁錮。當(dāng)算法用于不當(dāng)?shù)哪康臅r,會對某些人群或個體造成歧視與傷害。算法不僅在歸納與“同構(gòu)”現(xiàn)有文化中存在偏見、歧視,還可能用某種方式將它們放大。譬如此前舉例的亞馬遜AI招聘系統(tǒng)性別歧視一樣,機器的歧視來自于數(shù)據(jù)的偏差,而數(shù)據(jù)的偏差來自于人的偏見。

這一點,一些大數(shù)據(jù)的開發(fā)者體會更深,如國內(nèi)大數(shù)據(jù)應(yīng)用領(lǐng)域的代表性學(xué)者周濤所言,“讓我們不安的是,這種因為系統(tǒng)設(shè)計人員帶來的初始偏見,有可能隨著數(shù)據(jù)的積累和算法的運轉(zhuǎn)慢慢強化放大?!?/p>

3. 算法是否會使人陷入“幸福地被操縱”?

或許,個性化算法還會帶來另一個深層風(fēng)險, 那就是在個性化服務(wù)下,個體逐漸失去自主判斷與選擇能力,越來越多地被算法或機器控制。從人的本性來說,懶惰是天然的,想以最小的成本或付出獲得最大的報償,是人之常情,個性化服務(wù)在這方面迎合了人性,但是,它也可能正在以方便、幸福的名義,漸漸地使人們對它產(chǎn)生依賴,并在不知不覺中被其麻痹,被其囚禁。

一文了解AI時代的數(shù)據(jù)風(fēng)險(后真相時代、算法囚徒和權(quán)利讓渡)

?

風(fēng)險三 個人權(quán)利的讓渡是數(shù)據(jù)時代的必然代價?

數(shù)據(jù)時代對普通個體的另一個深層影響,是個體的全面數(shù)據(jù)化。在未來,用戶的數(shù)據(jù)將更為多元,將通過更多渠道生成、保存,這也意味著用戶數(shù)據(jù)中暗藏的風(fēng)險更大,數(shù)據(jù)權(quán)利的保護面臨更大的挑戰(zhàn)。

1. 用戶缺乏對自己數(shù)據(jù)的知情能力

此前李彥宏一句“中國人對隱私問題不敏感,愿意用隱私換取便利、安全或者效率”的言論讓自己成為眾矢之的。事實上,對于普通用戶而言,并非他們不介意隱私被暴露,而是并不知道自己的隱私會如何被侵犯,以及被侵犯到何種程度。他們與那些掌握并利用甚至可能出賣他們的隱私數(shù)據(jù)的公司之間是不平等的。在缺乏對自己數(shù)據(jù)的知情能力的情況下,隱私保護根本無從談起。

雖然在某些時候,以隱私換便利是用戶的一種不得已的選擇,但用戶應(yīng)該有權(quán)利知道,出讓的是哪些隱私數(shù)據(jù),能獲取哪些便利,以便他們做出權(quán)衡。但今天的網(wǎng)絡(luò)服務(wù)提供者多數(shù)并沒有提供充分的解釋,即使有一些隱私條款,也往往語焉不詳或者暗藏陷阱。

2. 用戶數(shù)據(jù)的邊界問題值得探討

此外,還有用戶數(shù)據(jù)使用權(quán)限邊界問題。譬如之前第三方公司劍橋分析利用心理測試APP來收集Facebook用戶數(shù)據(jù)一樣。即使用戶同意向某個服務(wù)商提供個人信息,但服務(wù)商是否有權(quán)向第三方透露?而第三方是否又可以再次將數(shù)據(jù)轉(zhuǎn)手?網(wǎng)絡(luò)中的數(shù)據(jù)都是相互關(guān)聯(lián)的,獲取未經(jīng)授權(quán)的關(guān)聯(lián)數(shù)據(jù)是否合法?或許在理論上做出限定是容易的,但在現(xiàn)實中的操作,又并非那么簡單。

3. 用戶是否應(yīng)該擁有絕對隱身的權(quán)利

再一個事關(guān)用戶隱私權(quán)的問題是,今天的用戶是否應(yīng)該擁有一種隱身能力,使自己的數(shù)據(jù)不被他人獲取或存儲,從而在根本上保護自己?;蛟S,這在國內(nèi)將很難被執(zhí)行。譬如人臉識別技術(shù)已被廣泛用于街頭巷尾的攝像頭,盡管“天眼”織就“天網(wǎng)”讓罪犯無處可逃,而對于普通個體而言,同樣讓人感覺到這是一種無處不在的監(jiān)視。

在個體被隨時隨地“數(shù)字化”映射的情況下,隱身,也是保護隱私的一個重要方面。雖然在法律上要獨立形成一種“隱身權(quán)”或許并不現(xiàn)實(它更有可能是隱私權(quán)中的一部分),但至少在技術(shù)層面,需要給予用戶更多的“隱身”可能。在物聯(lián)網(wǎng)將廣泛應(yīng)用的未來,隱身許可將變得更為重要。

4. 保護用戶隱私的法律并不能完全保護隱私

在保護用戶隱私的法律方面,2012年歐盟出臺《一般數(shù)據(jù)保護條例》,稱信息主體有權(quán)要求信息控制者刪除與其個人相關(guān)的資料信息。該權(quán)利被稱為被遺忘及擦除權(quán)。在國內(nèi),2016年頒布的《網(wǎng)絡(luò)安全法》正式確認了個人對其網(wǎng)上個人信息的“刪除權(quán)”:“個人發(fā)現(xiàn)網(wǎng)絡(luò)運營者違反法律、行政法規(guī)的規(guī)定或者雙方的約定收集、使用其個人信息的,有權(quán)要求網(wǎng)絡(luò)運營者刪除其個人信息?!边@些都是對數(shù)字時代個人信息的存留風(fēng)險做出的法律回應(yīng)。

不過,目前被遺忘權(quán)或刪除權(quán)更多地是在學(xué)界和法律界被討論,大多數(shù)普通人并不知道它的存在。并且,即使有被遺忘權(quán)或刪除權(quán),個體也會面臨比以往更多的風(fēng)險。雖然謹言慎行或許是人們自認為的減少風(fēng)險的辦法,但在算法通過若干點贊就可以判斷用戶的性格的情況下,在未來各種傳感器可以隨時隨地捕捉人的數(shù)據(jù)的情況下,被記憶仍會是常態(tài)。

一文了解AI時代的數(shù)據(jù)風(fēng)險(后真相時代、算法囚徒和權(quán)利讓渡)

以上是對數(shù)據(jù)與算法時代可能面臨風(fēng)險的探討。盡管數(shù)據(jù)與算法應(yīng)用的價值不可否定,但我們需要對數(shù)據(jù)和算法應(yīng)用的失誤或失范有足夠的警惕,也需要增強對抗風(fēng)險的能力。在國內(nèi),由于觀念、基礎(chǔ)條件、規(guī)范等方面的障礙,都意味著大數(shù)據(jù)應(yīng)用的推進需要時間。任何功利、草率的思維和行為都是對數(shù)據(jù)應(yīng)用的損害而非推動。在數(shù)據(jù)技術(shù)的大躍進過程中,我們也需要回歸原點,完成一些基本建設(shè),譬如數(shù)據(jù)素養(yǎng)的培養(yǎng)、數(shù)據(jù)資源基礎(chǔ)設(shè)施建設(shè)、數(shù)據(jù)質(zhì)量評估體系建立、信息倫理規(guī)范的約束等。在這個時代,數(shù)據(jù)、算法將會成為決定我們生存方式的重要因素。識別、抵抗這其中的種種風(fēng)險,也應(yīng)該成為我們生活的一部分,成為各種數(shù)據(jù)應(yīng)用機構(gòu)的基本責(zé)任。

責(zé)任編輯:陳近梅

分享: