來(lái)源:數(shù)據(jù)觀 時(shí)間:2017-01-11 09:49:09 作者:大數(shù)據(jù)文摘
VR的廣泛傳播對(duì)于數(shù)據(jù)視覺(jué)化具有著可算是屈指可數(shù)的地位并因VR發(fā)生了天翻地覆的改變。但重點(diǎn)是如何改變?現(xiàn)如今的數(shù)據(jù)視覺(jué)化又發(fā)生了哪些問(wèn)題?這篇文章就此深挖傳統(tǒng)視覺(jué)化所存在的問(wèn)題和理解抽象信息中的困難以及VR如何使之改變。
Evan就任一家VR數(shù)據(jù)視覺(jué)化公司Kineviz的項(xiàng)目經(jīng)理。曾作為數(shù)據(jù)科學(xué)家就職于HID Global,并且畢業(yè)于加利福利亞大學(xué)伯克利分校認(rèn)知學(xué)。除了平時(shí)為Kineviz工作和探索VR之外,Evan還深醉于研究人類的決議過(guò)程。
在1983年,Amos Tversky 和 Daniel Kahneman問(wèn)了大學(xué)生如下幾個(gè)問(wèn)題:
Linda是一個(gè)31歲坦率個(gè)性陽(yáng)光的單身并學(xué)習(xí)哲學(xué)專業(yè)的女生。作為一名學(xué)生,她深切的關(guān)注歧視和社會(huì)司法所存在的問(wèn)題并投身于反原子能游行中。這可能是因?yàn)椋?/p>
1. Linda是名小學(xué)老師?
2. Linda在書店工作并參加瑜伽課?
3. Linda積極參與女權(quán)運(yùn)動(dòng)?
4. Linda是一名精神病院的社工?
5. Linda是婦女選民聯(lián)盟的一員?
6. Linda是一名銀行柜員?
7. Linda是保險(xiǎn)銷售員?
8. Linda是銀行柜員并積極投身女權(quán)運(yùn)動(dòng)?
他們發(fā)現(xiàn)86%的大學(xué)生認(rèn)為#8 (Linda是銀行柜員并積極投身女權(quán)運(yùn)動(dòng))比#6更有可能發(fā)生。雖然很容易聯(lián)想Linda是支持女權(quán)且是一名柜員,但女權(quán)主義柜員僅是柜員中的一種,所以女權(quán)主義柜員的數(shù)量遠(yuǎn)少于所有柜員,(所以Linda是柜員的可能性還是應(yīng)該大于她是女權(quán)主義柜員的可能性)。
不僅是這個(gè)例子非常有名,大多數(shù)人發(fā)現(xiàn)這讓人困惑,然而視覺(jué)化讓這一切一目了然簡(jiǎn)單易懂。
哪一個(gè)更有可能發(fā)生:Linda是一個(gè)銀行柜員或女權(quán)主義柜員?假設(shè)圓圈大小與現(xiàn)實(shí)成比例。
虛擬現(xiàn)實(shí)使得概率推理變得異常簡(jiǎn)單,就如圖表使得所謂的“Linda問(wèn)題”變的簡(jiǎn)單。
談及數(shù)據(jù)和虛擬現(xiàn)實(shí)的關(guān)系就如雞與雞蛋的問(wèn)題-若不知道VR數(shù)據(jù)工具會(huì)被如何使用,組建一系列VR工具是相當(dāng)困難的。雖然如此,虛擬現(xiàn)實(shí)能夠有解決
a)概率思維(上述)
b)高維數(shù)據(jù)視覺(jué)化
c)高密度信息
d)提供場(chǎng)景便于透徹理解來(lái)龍去脈
高維數(shù)據(jù)視覺(jué)化
圖像對(duì)于優(yōu)質(zhì)的統(tǒng)計(jì)分析至關(guān)重要- F.J. Anscombe
如果提供的數(shù)據(jù)集是兩維或者更少,這數(shù)據(jù)相對(duì)容易用圖像或者表格視覺(jué)化:
Anscombe的著名四重奏,取自維基百科。四個(gè)數(shù)據(jù)組有相同的平均值,相關(guān)性,方差和最優(yōu)擬合線。
上述的每個(gè)數(shù)據(jù)集,所有X坐標(biāo)的平均值都是9,Y坐標(biāo)的平均值為7.5, X坐標(biāo)的方差是11,X與Y的相關(guān)性是0.816, 且最優(yōu)擬合線的公式是Y = 3 + 5x。
換句話說(shuō),這四組數(shù)據(jù)在統(tǒng)計(jì)上是完全一樣的,視覺(jué)化把它們的真實(shí)特性被“出賣”。不過(guò),這次當(dāng)然輕松,因?yàn)槲覀円幚淼闹徊贿^(guò)是二維的數(shù)據(jù)。
如果談及三維數(shù)據(jù),則需要使用三維圖。如果想要演示更高維度的數(shù)據(jù)(比如說(shuō)你的excel表格中有大量列)是不大可能的。想象二維圖像當(dāng)然容易,但當(dāng)數(shù)據(jù)集中有很多列(比如10,000列,只要多于3列)問(wèn)題就會(huì)來(lái)了,三維以上的視覺(jué)化是不可能的任務(wù)。
然而,還有其他方法詮釋維度。 比如一個(gè)三角形,可以用于表現(xiàn)三維數(shù)據(jù),如果每個(gè)維度對(duì)應(yīng)著三角形的每一條邊長(zhǎng)。如果你愿意,甚至可以用紅藍(lán)光譜或者深淺光譜來(lái)為三角中心上色,這樣就會(huì)有五個(gè)維度可供觀察。對(duì)比每個(gè)三角形,你或者就可以發(fā)現(xiàn)異?;蛟诖穗[藏的規(guī)律和關(guān)系。當(dāng)然,這只是個(gè)理論。
Herman Chernoff 在70年代探索了這理論的一個(gè)變種-有別于到三角形邊長(zhǎng),他用不同的卡通人物的臉映射數(shù)據(jù)的維度。
以下我會(huì)讓你判斷L.A. 時(shí)代的信息圖做的如何;
Eugne Turner -洛杉磯的生活 (1977),L.A. 時(shí)代。有四種面部維度,每個(gè)臉的地理分布和社區(qū)區(qū)塊信息,這就意味這是一個(gè)有六個(gè)維度的數(shù)據(jù)。
你的本能反應(yīng)對(duì)這個(gè)方法的數(shù)據(jù)表現(xiàn)嗤之以鼻,它們看起來(lái)可笑,帶有一點(diǎn)種族歧視,和難以理解。 但我勸你不妨再嘗試一次-能發(fā)現(xiàn)貧富社區(qū)間的緩沖帶嗎?
切爾諾夫臉譜圖不能得到廣泛利用的其中一個(gè)原因是它們太卡通了(科學(xué)通常都是嚴(yán)謹(jǐn)商業(yè)的,可能不太適合卡通臉譜圖)。現(xiàn)實(shí)的切爾諾夫臉譜雖然可以解決太卡通的問(wèn)題,他卻存在另一個(gè)問(wèn)題:貌似他們直觀就可以理解,但我們對(duì)臉和情感太有經(jīng)驗(yàn),反而難以去評(píng)估編造的臉譜。
在下面的描繪中,Tim Cook 臉的參數(shù)-如眉毛的斜率-被用來(lái)映射Apple每年的財(cái)務(wù)數(shù)據(jù)多個(gè)問(wèn)題點(diǎn)。
Christo Allegra的作品, Tim Cook 臉部的不同形態(tài)展現(xiàn)了每年Apple的財(cái)務(wù)數(shù)據(jù)不同的問(wèn)題。他鼻子的寬度用來(lái)表現(xiàn)Apple貸款額;他嘴巴的開(kāi)合度表現(xiàn)營(yíng)業(yè)額;眼睛的大小表現(xiàn)每股收益等等。更多切爾諾夫臉譜圖的應(yīng)用,詳見(jiàn)Dan Darling的成果。
很顯然,這種方法也有一些問(wèn)題。首當(dāng)其沖的就是,臉部不是在任何情況都能傳達(dá)同等程度的情感信息的,“笑”這個(gè)動(dòng)作就是如此。換句話說(shuō),你對(duì)不同面部的感知的不同不能等同于實(shí)際數(shù)據(jù)的差值。這就是能夠讓圖表如此有用的眾多特質(zhì)之一。這也是為什么用可視化的方法解決Linda問(wèn)題會(huì)更加直觀。這就是現(xiàn)今多維度的數(shù)據(jù)可視方法存在的缺陷。
虛擬現(xiàn)實(shí)技術(shù)可以解決上面所提及的眾多問(wèn)題。將面部取代,切爾諾夫類似的技術(shù)可以應(yīng)用于控制中性對(duì)象觀察、行動(dòng)、交流和被分配。舉例來(lái)說(shuō),下面所有桌子的屬性能夠被用來(lái)表示不同的數(shù)據(jù)維度:高度、桌面的面積、顏色、腿長(zhǎng)、桌子磨光度以及斑點(diǎn)和焊補(bǔ)的位置和種類。如果你有15個(gè)維度的數(shù)據(jù),你可以將維度轉(zhuǎn)化成能夠控制桌子外形的各種參數(shù)。
每一個(gè)測(cè)量值都會(huì)被用來(lái)可視化數(shù)據(jù)的另一個(gè)維度,來(lái)自mycarpentry.com
VR的優(yōu)勢(shì)就是能夠讓你感受到桌子真實(shí)、直觀的意義,比方說(shuō)它是另一張桌子的2倍高;抑或是桌面不同的摩擦系數(shù)。一些試驗(yàn)可以保證不同維度下相同的感知權(quán)重。
除此之外,相關(guān)的方法論已經(jīng)在精神物理學(xué)和色彩感知領(lǐng)域得到了深度的研究---研究人員已經(jīng)花費(fèi)很多時(shí)間在測(cè)量人們?nèi)绾瓮ㄟ^(guò)不同的知覺(jué)感知微弱和巨大的差異。換句話說(shuō),VR和一些心理物理學(xué)能夠使了解復(fù)雜的數(shù)據(jù)變得像走進(jìn)宜家一樣簡(jiǎn)單。
高密度圖表
因?yàn)橐恍┏霈F(xiàn)在數(shù)學(xué)歷史中的不幸,那些由一堆點(diǎn)和連接組成的物體集同樣也被稱為圖表。
這類的圖表大致長(zhǎng)這樣:
維基百科的Prefuse視覺(jué)圖,來(lái)自維基百科
上面的每一個(gè)點(diǎn)表示一個(gè)維基頁(yè)面,每一條線代表著頁(yè)面之間的聯(lián)系。
圖表對(duì)于通過(guò)抽象的方法看見(jiàn)物體或者數(shù)據(jù)點(diǎn)有著重要意義,特別是當(dāng)聯(lián)系的類別和數(shù)量不可忽視的時(shí)候。
舉例來(lái)說(shuō),下列的圖表表示著在啤酒酵母細(xì)胞中基因間的每一次相互作用。
左:表示酵母基因組的節(jié)點(diǎn)和邊緣圖。右:重要的基因群。
盡管這個(gè)圖表看起來(lái)很有意思,你肯定已經(jīng)注意到2張圖在中部都很密集。如果你去探索巴拿馬的這個(gè)數(shù)據(jù)集,你會(huì)發(fā)現(xiàn)一些類似的事情發(fā)生---這個(gè)連接的圖表會(huì)變得密集和迅速。
由于在圖表中心重疊的連接的數(shù)量太多,圖表會(huì)變得非常難以理解,同時(shí)這也會(huì)成為理解物體間相互關(guān)系的難題,而這又是使用圖表的最初目的。
你可以想象,3D的圖表的可視化不會(huì)顯得如此復(fù)雜:
人腦中不同的相互連接的網(wǎng)絡(luò)的3D可視化圖表
然而,你需要注意這些可視化也會(huì)遭遇“混亂”的問(wèn)題;盡管作者正用算法來(lái)將這些連接線“捆綁”在一起,搞清楚現(xiàn)實(shí)狀況仍然很難。然而,想象一下,如果你能夠飛進(jìn)這些大腦的中心位置,并且可以迅速改變大腦的大小---數(shù)據(jù)就會(huì)更容易地解讀了。
提供場(chǎng)景
比較下列的圖表:
這倆個(gè)圖表用的是相同的數(shù)據(jù)集。左邊的圖表被提名2015年年度最誤導(dǎo)人的圖表之一。
我承認(rèn),盡管上面的圖表的表示很有誤導(dǎo)性,但它至少因?yàn)槭庆o態(tài)圖形原因。如果能夠改變數(shù)據(jù)的大小,形狀和范圍可以防止數(shù)據(jù)被誤導(dǎo),因?yàn)榄h(huán)境因素會(huì)直接影響體驗(yàn)。
用虛擬現(xiàn)實(shí)技術(shù)來(lái)可視化信息的最大優(yōu)勢(shì)是它能夠分享不僅僅只是靜態(tài)的VR展示;每一個(gè)VR的展示都是一次無(wú)意識(shí)的體驗(yàn)。這意味著觀看者可以按照自己的意愿去探究它。
盡管VR數(shù)據(jù)工具仍然是處在初期階段,但是我可以推薦你3個(gè)具備上述功能的工具。
CalcFlow
最開(kāi)始我想介紹下CalcFlow,這個(gè)工具是由UCSD的數(shù)學(xué)系為了可視化3D數(shù)學(xué)概念時(shí)研發(fā)出來(lái)的。現(xiàn)在,它已經(jīng)推出一些列具備互動(dòng)性的演示,能夠讓人對(duì)二重積分或納維爾-斯托克斯方程有直觀的了解。在每個(gè)演示中,你可以體驗(yàn)到我之前所提到的一些VR功能:改變尺度并且在數(shù)據(jù)中間“穿行”,這也意味著數(shù)據(jù)會(huì)被更加容易解讀。由于這個(gè)演示具備很強(qiáng)的操作性,用戶可以在飛行中不斷調(diào)整數(shù)據(jù)可視方式,探究這種改變?nèi)绾斡绊懚嗑S度的圖表。
DeathTools
DeathTools將數(shù)據(jù)可視化從抽象的數(shù)字帶向一個(gè)真實(shí)、可觸碰的世界,在這個(gè)世界不同于圖形和表格,我們能夠更加深入地理解數(shù)據(jù)。用這個(gè)工具可以看到近期中東沖突的累計(jì)尸體數(shù)量。不同于圖表,你是真實(shí)地站在一行行裝尸袋中間,這樣可以準(zhǔn)確地了解死亡的數(shù)量。
就如DeathTools的創(chuàng)建者Ali Eslami說(shuō):
我們的智慧所缺的就是運(yùn)算大數(shù)的能力。我們很難去理解和接受大量的死亡。舉例來(lái)說(shuō),像1;2;14;20;50這些是我們會(huì)經(jīng)常碰到的數(shù)字,并且我們能通過(guò)我們自己內(nèi)心記住的模型來(lái)理解它們。但是后來(lái)我們遇見(jiàn)如1000;10000;20000這樣的數(shù)字。這些數(shù)字會(huì)變得越來(lái)越難用概念來(lái)衡量,但是我們?nèi)匀荒軌蛲ㄟ^(guò)用可視化模型去理解這些數(shù)據(jù)的大致含義。
Kineviz
最后,Kineviz正在研發(fā)具VR功能的3D圖形探索工具。這個(gè)工具被設(shè)計(jì)成用來(lái)解決高信息密度的問(wèn)題,并非切能夠讓用戶直接地體驗(yàn)數(shù)據(jù)意義上的不同。自己去看看吧:
VR的最主要的優(yōu)勢(shì)就是它能夠被用來(lái)更容易地感知數(shù)據(jù)微妙的差別。除此之外,VR能夠使數(shù)據(jù)表達(dá)更具操作性,意味著想要去改變數(shù)據(jù)表達(dá)來(lái)迎合一個(gè)特定的故事會(huì)越來(lái)越難。最終,一個(gè)人在VR中可以用他們空間意識(shí)來(lái)迅速改變能夠讓一個(gè)人去改變比范圍,同時(shí)也允許那些以前難以想象的數(shù)據(jù)范圍被感知到。
注:本稿件摘自數(shù)據(jù)觀入駐自媒體-大數(shù)據(jù)文摘,轉(zhuǎn)載請(qǐng)注明來(lái)源,百度搜索“數(shù)據(jù)觀”獲取更多大數(shù)據(jù)資訊。
責(zé)任編輯:湯德正