來(lái)源:數(shù)據(jù)觀 時(shí)間:2020-08-03 13:51:07 作者:
7月29日,以“賦能實(shí)體經(jīng)濟(jì),推動(dòng)產(chǎn)業(yè)創(chuàng)新——大數(shù)據(jù)與實(shí)體經(jīng)濟(jì)融合發(fā)展”為主題的2020“數(shù)博對(duì)話(huà)”活動(dòng)成功舉辦。貴州華大生命大數(shù)據(jù)研究院執(zhí)行院長(zhǎng)金鑫在本期對(duì)話(huà)活動(dòng)中以《基因大數(shù)據(jù)價(jià)值與未來(lái)》為主題進(jìn)行了分享。
基因信息與生老病死密切相關(guān)
金鑫認(rèn)為,一方面,人是數(shù)據(jù)的生產(chǎn)者,生活中不管是打車(chē)、買(mǎi)東西,還是其他活動(dòng),無(wú)時(shí)無(wú)刻都在產(chǎn)生數(shù)據(jù)。另一方面,每個(gè)人也是信息的載體,這個(gè)信息就是構(gòu)成生命最基本的基因?;虼嬖谟诿總€(gè)細(xì)胞里,這是跟每個(gè)人都密切相關(guān)的東西,但在過(guò)去很多年里,它是數(shù)字化程度比較低的一種數(shù)據(jù)類(lèi)型。
我們每個(gè)人都是基因信息的載體,這個(gè)載體是承載在細(xì)胞里。金鑫介紹:“我們身體里會(huì)有多少細(xì)胞?有人做過(guò)測(cè)算,細(xì)胞的數(shù)量在50萬(wàn)億個(gè),如果把我們身體里的細(xì)胞平鋪的話(huà),它可以覆蓋1600米的沙灘。每個(gè)細(xì)胞里有多少DNA?人的基因組序列的長(zhǎng)度大約是30億個(gè)堿基。地球到太陽(yáng)之間的距離是一個(gè)天文單位,如果把人體里所有細(xì)胞的基因序列連起來(lái)的話(huà),它的長(zhǎng)度通過(guò)計(jì)算大約是300多個(gè)這樣的單位,遠(yuǎn)遠(yuǎn)超過(guò)了目前的旅行者1號(hào)(1977年發(fā)出的飛行器,到現(xiàn)在也沒(méi)飛到),這里面的信息量可想而知?!?/p>
更多的數(shù)據(jù)帶來(lái)更多的發(fā)現(xiàn)。金鑫進(jìn)一步談到,每個(gè)人都有重大的信息量,這些信息跟我們的生老病死是密切相關(guān)的,尤其是跟我們密切相關(guān)的健康疾病因素,有遺傳的基礎(chǔ)、健康的基礎(chǔ)等。如果我們知道了未來(lái)多長(zhǎng)時(shí)間內(nèi)有多大的概率會(huì)得某種病,那就可以治療或者是防控,或者在早期能發(fā)現(xiàn)它也可以進(jìn)行合理干預(yù),比如“三高”的控制等。同時(shí),在這個(gè)過(guò)程中,需要大數(shù)據(jù)去回答問(wèn)題和消除不確定性,因?yàn)槿绻谎芯恳粋€(gè)人的信息量,這是不匹配的,如果把他的原始數(shù)據(jù)估出來(lái),一個(gè)人的數(shù)據(jù)在今天至少要達(dá)到100G,這個(gè)人已經(jīng)被確診為糖尿病或者沒(méi)有,這是在海量數(shù)據(jù)中海底撈針。但如果有很多人的數(shù)據(jù),百萬(wàn)量級(jí)的層級(jí)里面就能建立聯(lián)系。
上圖是人類(lèi)將近20年以來(lái)所發(fā)現(xiàn)的跟各種各樣人類(lèi)疾病有關(guān)系的基因位置和區(qū)域。金鑫介紹,這張圖上,人類(lèi)1號(hào)染色體一直到22號(hào),還有性染色體,圖上每一個(gè)圓圈就代表了一種疾病或者我們所關(guān)心的人體的表型。正因?yàn)榛蚋鷰缀跞魏蔚募膊《加嘘P(guān)系,所以非常希望能更進(jìn)一步地了解它們深入的聯(lián)系。
基因大數(shù)據(jù)時(shí)代來(lái)臨
金鑫表示,基因組是非常龐大的序列組合,有時(shí)候會(huì)發(fā)生更復(fù)雜的變化,比如有一段少了,有一段增加了,有一段換了位置,有一段貼到了別的地方......這就使現(xiàn)在的技術(shù)逐步地去研究它跟疾病之間的關(guān)系。在這個(gè)背景下,各個(gè)國(guó)家都發(fā)現(xiàn)了這中間蘊(yùn)含的巨大的價(jià)值和可能性,如果我們把生命本身解碼,把它跟更多的數(shù)據(jù)連接起來(lái),更多的價(jià)值就能連接起來(lái)。這個(gè)過(guò)程中,希望能夠通過(guò)大量的數(shù)字化,生命的大數(shù)據(jù)就能產(chǎn)生,去解決怎樣拓寬信息和數(shù)據(jù)來(lái)源的問(wèn)題。
在過(guò)去這些年,每一個(gè)人的數(shù)據(jù)是單獨(dú)來(lái)看,它的價(jià)值是沒(méi)有得到釋放的,所以在這中間有很多關(guān)于科學(xué)倫理的討論,但現(xiàn)在這個(gè)價(jià)值正在逐步得到顯現(xiàn)。
金鑫舉例介紹,英國(guó)的生物銀行(UK BioBank)共享50萬(wàn)英國(guó)人基因數(shù)據(jù),這50萬(wàn)人現(xiàn)在都已經(jīng)有了基因數(shù)據(jù),這個(gè)基因信息就逐步開(kāi)始跟各種各樣類(lèi)型的數(shù)據(jù)產(chǎn)生聯(lián)系。在這個(gè)過(guò)程中,做了50萬(wàn)的基因信息之后嘗到了甜頭,尤其是在過(guò)去幾年有大量的數(shù)字化成本,并不是通過(guò)英國(guó)的科研經(jīng)費(fèi)和科技部門(mén),而是來(lái)自產(chǎn)業(yè)部門(mén),數(shù)據(jù)價(jià)值真正得到使用的部門(mén)。有好幾家國(guó)際領(lǐng)先的制藥公司投入一定的經(jīng)費(fèi)來(lái)支持這個(gè)項(xiàng)目,把中間的基因數(shù)據(jù)生產(chǎn)出來(lái)。尤其到了最近,他們完成了一期之后已經(jīng)開(kāi)始啟動(dòng)第二期,這中間有大量來(lái)自產(chǎn)業(yè)界的投入。
為什么產(chǎn)業(yè)界會(huì)參與做基因數(shù)據(jù),尤其是制藥企業(yè)。金鑫分析道,開(kāi)發(fā)一個(gè)新藥可能要花十億美金,但只有很低的可能性能成功。如果在開(kāi)發(fā)的過(guò)程中,有來(lái)自基因數(shù)據(jù)的支持,這個(gè)藥成功的概率就會(huì)提高一倍,這中間能夠帶來(lái)的收益非??捎^。
金鑫介紹,這中間蘊(yùn)含著機(jī)會(huì),也蘊(yùn)含著挑戰(zhàn)。美國(guó)和英國(guó)做了很多,是不是只要大家使用他們的研究成果,繼續(xù)往后做就好了?大家發(fā)現(xiàn)不是這樣的,雖然今天在世界上生活的都同一種人,叫現(xiàn)代人,但是人群和人群之間存在差異,地域與地域之間存在差異,累積起來(lái)帶來(lái)的預(yù)測(cè)效果差別是非常大的。有人去做了統(tǒng)計(jì),匯集了到今天為止已經(jīng)發(fā)表的跟基因和疾病健康相關(guān)的所有研究成果,按照這個(gè)研究項(xiàng)目看,50%以上是來(lái)自于歐洲人群。如果大家把過(guò)去所有做了基因信息的人跟這個(gè)數(shù)據(jù)庫(kù)比對(duì),會(huì)發(fā)現(xiàn)將近80%的人是來(lái)自歐洲。這給我們非常大的提醒,如果只是依賴(lài)于別人完成的成果,很有可能會(huì)錯(cuò)過(guò)接下來(lái)一波信息革命在健康醫(yī)療產(chǎn)業(yè)里面給我們帶來(lái)的機(jī)會(huì)。
過(guò)去幾年,包含華大基因在內(nèi)的多個(gè)國(guó)內(nèi)研究團(tuán)隊(duì)做了很多跟中國(guó)人群相關(guān)的基本的研究,通過(guò)這樣的工作能夠去畫(huà)出中國(guó)人遺傳基因的圖譜,類(lèi)似于這樣基本信息的研究,可能對(duì)于遺傳病的防控有更好的作用。
基因大數(shù)據(jù)研究的工具突破
“最早做人類(lèi)基因組計(jì)劃的時(shí)候,人類(lèi)科學(xué)家做了10年花了30億美金才做了一個(gè)人的基因組,到后來(lái)我們只需要花三五年時(shí)間,在幾個(gè)億美金的情況下就可以完成30萬(wàn)人。到今天,完成一個(gè)人的基因組,它的成本已經(jīng)低于500美金,這個(gè)成本還在繼續(xù)下降?!苯瘀蜗M?,未來(lái)成本能降到100美金,這樣更多的人才會(huì)用到它。
開(kāi)展基因大數(shù)據(jù)研究,需要工具的支撐。金鑫介紹,以測(cè)序技術(shù)為代表的組學(xué)技術(shù)發(fā)展日新月異,現(xiàn)在開(kāi)發(fā)出了基于基因納米球的技術(shù)。
圖中紅色的線(xiàn)是每檢測(cè)一個(gè)人的基因成本,每一次它都會(huì)快速下降,到了今天已經(jīng)接近幾百美金的水平,未來(lái)會(huì)在100美金之下;黃色的線(xiàn)是摩爾定理,就是芯片的速度和成本,基因測(cè)序成本的下降速度比摩爾定理還要快。
在這個(gè)過(guò)程中,在2013年以前,全世界只有兩個(gè)國(guó)家能生產(chǎn)到科研級(jí)別、臨床級(jí)別的基因測(cè)序,就是英國(guó)和美國(guó)。到2009年,英國(guó)這家公司把技術(shù)賣(mài)給了美國(guó),所以英國(guó)也沒(méi)有這個(gè)能力了。2013年美國(guó)進(jìn)一步研發(fā),到今天為止,世界上還是只有兩個(gè)國(guó)家、三家公司能做基因測(cè)序儀,華大是中國(guó)唯一一家。
“從我們開(kāi)始做基因測(cè)序儀的研發(fā),到今天經(jīng)歷了六七年時(shí)間,我們最原始的版本已經(jīng)迭代了很多基因測(cè)序儀,開(kāi)發(fā)了很多應(yīng)用,比如地中海貧血基因的變化,到現(xiàn)在最高通量的全世界每天產(chǎn)生7Tb數(shù)據(jù)的基因測(cè)序儀已經(jīng)開(kāi)發(fā)成熟了,這為我們國(guó)家在未來(lái)有成功可控的技術(shù)奠定了基礎(chǔ)?!苯瘀谓榻B道。
基因本身是一個(gè)信息載體,過(guò)去做的很多工作都是可以從基因序列里讀出需要的信息,將這個(gè)信息跟疾病信息聯(lián)系起來(lái)。金鑫表示,DNA本身也可以作為一個(gè)載體,我們存DNA只需要保存在干燥穩(wěn)定的環(huán)境里,它就可以長(zhǎng)期保存。如果要復(fù)制它,可以把這段基因?qū)氲揭欢渭?xì)菌里,微生物的生長(zhǎng)是指數(shù)級(jí)的,很快就可以達(dá)到數(shù)量,寫(xiě)在硬盤(pán)或者閃存里可能都不如把它寫(xiě)在某種生物里,把它一代一代傳下去。我們攜帶信息是不是還有別的意義?是不是真的有所謂的造物主的信息存在?它的信息密度非常高,一個(gè)細(xì)胞里可以存30億個(gè)堿基的信息。有人測(cè)算過(guò),如果用一公斤的DNA,如果我們把它用合理的編碼規(guī)則的話(huà)可以存下今天全世界所有的數(shù)據(jù),這樣的存儲(chǔ)密度是超過(guò)今天所有的技術(shù)的,這樣的存儲(chǔ)技術(shù)是億萬(wàn)年進(jìn)化來(lái)的結(jié)果。
一個(gè)人的基因數(shù)據(jù)有很多,那一個(gè)人是不是只做一次基因測(cè)序就可以了呢?金鑫表示:“我們的身體、細(xì)胞其實(shí)是像馬賽克一樣,這幾年新起了一個(gè)技術(shù)叫單細(xì)胞測(cè)序,今天可以做到對(duì)單個(gè)細(xì)胞進(jìn)行精細(xì)定位,這在很大程度上提高了我們對(duì)于生命信息理解的更清晰的分辨率,給大家?guī)?lái)了更多的對(duì)生命的理解。我們身體里的細(xì)胞是非常多的,而且有很多我們以前不知道的細(xì)胞,比如生物智能到底是怎么回事,到今天依然是無(wú)解的。以前研究大腦非常困難的就是它里面這么多細(xì)胞這么的不同,我們?cè)鯓尤ビ^測(cè)它,我們現(xiàn)在已經(jīng)啟動(dòng)了這個(gè)項(xiàng)目,對(duì)小鼠的腦細(xì)胞進(jìn)行單細(xì)胞測(cè)序,每一種顏色就是代表了不同的細(xì)胞類(lèi)型,我們有更多數(shù)據(jù)、更多細(xì)胞、更大的信息,我們可以去重構(gòu)和還原小鼠腦細(xì)胞的聯(lián)系,這樣我們更好的理解了生物智能,反過(guò)來(lái)對(duì)于人工智能技術(shù)會(huì)有更大的幫助。”
釋放基因大數(shù)據(jù)的價(jià)值
研究基因大數(shù)據(jù),也離不開(kāi)社會(huì)經(jīng)濟(jì)和健康醫(yī)療發(fā)展,因?yàn)樯畔⒒驍?shù)據(jù)只是整個(gè)健康醫(yī)療大數(shù)據(jù)中的一部分,它是非常核心的一部分。
如果把整個(gè)健康醫(yī)療數(shù)據(jù)的圖形畫(huà)出來(lái),大家會(huì)看到未來(lái)在把基因數(shù)據(jù)和健康醫(yī)療大數(shù)據(jù)連接起來(lái)的時(shí)候,這中間會(huì)有更多的價(jià)值和更多的機(jī)會(huì)。這里面數(shù)據(jù)的體量層面也可以顯然看到,基因數(shù)據(jù)和影像數(shù)據(jù)是最大最重的。
在價(jià)值的實(shí)現(xiàn)方面,金鑫還提到,更好地了解基因信息,能更精準(zhǔn)更快速的開(kāi)發(fā)出來(lái)新的藥物。除此之外,基因信息在保險(xiǎn)業(yè)過(guò)中也能發(fā)揮非常多的作用。如果能了解更多的基因信息,對(duì)購(gòu)買(mǎi)保險(xiǎn)的人來(lái)說(shuō),就能預(yù)知未來(lái)身體健康情況,能對(duì)抗更多的風(fēng)險(xiǎn)。反過(guò)來(lái),保險(xiǎn)公司掌握這些數(shù)據(jù),對(duì)核保的條件也能更精準(zhǔn),每個(gè)人都能用基因數(shù)據(jù)來(lái)做健康管理。
責(zé)任編輯:姚治