精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

首頁 自媒自媒體 THU數(shù)據(jù)派正文

人工智能技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用與前景(附PPT)

  【導(dǎo)讀】2017年6月20日,零氪科技首席架構(gòu)師王曉哲,在清華大學(xué)“天池醫(yī)療AI大賽”第一季肺部結(jié)節(jié)智能診斷《醫(yī)學(xué)影像在腫瘤診療中的應(yīng)用及智能診斷探索》發(fā)表演講,演講主題為《輔助醫(yī)者普惠患者:人工智能技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用與前景》。以下為王曉哲的演講記錄。

  演講從全局整體背景上介紹了人工智能技術(shù)與臨床醫(yī)學(xué)結(jié)合以后已經(jīng)取得的成果,未來的發(fā)展前景和美好展望以及實(shí)際中碰到的一些核心挑戰(zhàn)。

  一、人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)概念

  什么是“人工智能”、“機(jī)器學(xué)習(xí)”、“深度學(xué)習(xí)”?這三個概念現(xiàn)在的媒體經(jīng)常會混為一談,使大家一頭霧水。如果我們回到歷史里追溯“人工智能”整體發(fā)展軌跡,就會很清晰的得到這三個術(shù)語的原本概念。

  1.人工智能概念

  從40年代末到50年代初,由于計(jì)算機(jī)的發(fā)明和逐步使用,人們想象,如果有了強(qiáng)大的運(yùn)算能力,是否可以產(chǎn)生一種智能的程序,從而逐漸替代一部分人的工作。這個想法掀起了“人工智能”的熱潮。

  那時(shí)候,計(jì)算機(jī)的計(jì)算算力雖然比傳統(tǒng)人工有了很大提升,但依然很有限。在當(dāng)時(shí)階段,實(shí)際上更多的是“人工”智能,最好的產(chǎn)品叫做“專家系統(tǒng)”。它是由大量的專家手動編制一系列規(guī)則,形成知識庫,然后由符號推理形式,闡述最后結(jié)果。這是符號學(xué)派的路徑。

  這條路后來很快也難以為繼。由于機(jī)器是單純的接受方,不能主動做改變自己邏輯的事情,所有的事情必須由人類專家一條一條的以規(guī)則化的方式去做,非常僵硬。而它背后的基礎(chǔ),謂詞邏輯又是一個非常剛性的框架,因此導(dǎo)致能表述的現(xiàn)實(shí)世界問題非常有限,更多的是一些玩具應(yīng)用。符號學(xué)派的熱潮很快消退,到70年代幾乎無人提及。

  2.機(jī)器學(xué)習(xí)的概念

  符號學(xué)派的失敗引出了新的想法,人們思考從另外一條路徑來做。從統(tǒng)計(jì)角度,可以把所有的現(xiàn)實(shí)問題都轉(zhuǎn)換成概率問題。因此,去尋找現(xiàn)實(shí)世界問題的解決方案就等價(jià)于尋找一個概率分布?;谶@樣的思路,于是有了初步的“機(jī)器學(xué)習(xí)”概念闡述。因此,80年代“機(jī)器學(xué)習(xí)”術(shù)語開始出現(xiàn)。

  當(dāng)時(shí)更多的是從傳統(tǒng)的統(tǒng)計(jì)方法開始實(shí)踐,應(yīng)用最多的是樸素貝葉斯方法。其典型的應(yīng)用就是垃圾郵件過濾,這是到目前為止仍最為簡單有效的一種過濾方式。于是終于產(chǎn)出了能夠?qū)嵱没囊恍┊a(chǎn)品。

  但是,我們發(fā)現(xiàn)單純從統(tǒng)計(jì)方法出發(fā),可能會產(chǎn)生另外一些問題,因?yàn)榻y(tǒng)計(jì)模型一般都是基于具體問題設(shè)計(jì)的參數(shù)化模型,我們?nèi)匀恍枰ナ止そ?,而這些建模工作就是一個非常耗費(fèi)精力的過程。

  3.深度學(xué)習(xí)的概念

  從2010年起,神經(jīng)網(wǎng)絡(luò)的一個分支、即深層神經(jīng)網(wǎng)絡(luò)這一類模型,終于有人找到了能很好地訓(xùn)練它的方法,實(shí)現(xiàn)自動去做特征抽取、表達(dá)抽取的工作。從此,“深度學(xué)習(xí)”這個概念就開始火了。所謂“深度學(xué)習(xí)”僅僅是特指深層神經(jīng)網(wǎng)絡(luò)的一個應(yīng)用。

  二、機(jī)器學(xué)習(xí)的典型問題范疇

  機(jī)器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和表征學(xué)習(xí)。

  1.有監(jiān)督學(xué)習(xí)

  概念:樣本集里面的問題,需要通過人或者其他的方式給出一個標(biāo)準(zhǔn)的答案,模型所做的事情就是以后碰到相似原始數(shù)據(jù)的時(shí)候,能夠盡量的貼近標(biāo)準(zhǔn)答案,越接近標(biāo)準(zhǔn)答案,模型評估效果越好。

  分類:分類最終的目標(biāo)變量是A、B、C這樣的離散集合里具體一類。我們做肺部結(jié)節(jié)檢測,發(fā)現(xiàn)結(jié)節(jié)后,它到底是良性還是惡性?這是一個典型的二分類問題。

  回歸:是指最后這個目標(biāo)變量是一個連續(xù)變量。最簡單的回歸方法是線性回歸,表達(dá)力很有限。

  案例:比如臨床上要分析血液里面的載脂蛋白和低密脂膽固醇這兩個指標(biāo)之間的關(guān)聯(lián)性,那么就會套用一個回歸模型來建立這樣一個關(guān)系。

  2.無監(jiān)督學(xué)習(xí)

  概念:指標(biāo)準(zhǔn)答案不存在或者不易定義,我們希望通過一些更為高層、抽象的規(guī)則刻劃,讓機(jī)器自動去發(fā)掘原有數(shù)據(jù)中間的一些特別特征或結(jié)構(gòu)。

  聚類:是把原始的數(shù)據(jù)、樣本,按照某種特征分離成若干相似群體。根據(jù)基因測序結(jié)果或者根據(jù)生物芯片對于突變的分析結(jié)果,在分子分型和臨床表現(xiàn)角度,把患者按相似性進(jìn)行劃分,分成一個個小的類別。這些不同的類別,分子分型和臨床表現(xiàn)上有很強(qiáng)的相似性,可以對這一類患者采取相似療法,以期獲得相似效果。

  降維:是對于很復(fù)雜、很高維度、需要很多特征來表達(dá)的數(shù)據(jù)空間,尋找其內(nèi)在的冗余性,然后把冗余的部分去除,變成一個比較低維度、好處理的形式。

  案例:癲癇患者往往需要做腦電波監(jiān)控。腦電信號在頭部采集,頭部會貼兩三百個電極,每個電極收集的信號都是完全獨(dú)立的,都是一個時(shí)序特征。所有信號全部采集在一起分析,未必能很好地預(yù)測癲癇患者的發(fā)病時(shí)間或癥狀強(qiáng)弱的特性。因此需要尋找所有這些電極中的冗余點(diǎn)在哪,是不是電極信號需要組合一下或者篩選出某些主導(dǎo)電極,更好地刻劃關(guān)聯(lián)性,更好地預(yù)測癲癇患者的發(fā)病情況?這是一個降維問題,要將原有兩三百個電極采集信號,轉(zhuǎn)換成只有十幾維的時(shí)序信號,這些信號與目標(biāo)結(jié)果由最強(qiáng)關(guān)聯(lián)性的信號來做最后的模型。

  3.表征學(xué)習(xí)

  概念:表征是指問題可以用不同形式來表述。有些表述形式很方便求解問題,而另一些表述形式不方便求解問題。

  案例:分解質(zhì)因數(shù),如果用現(xiàn)有的數(shù)字體系,是一個非常難的問題,尤其是大數(shù)的分解。如果改變問題的表述方式,將數(shù)字的表示法更改,這個數(shù)字不再用固定底數(shù)冪加和的形式來表達(dá),而是用一系列質(zhì)數(shù)冪的乘積來表達(dá),分解質(zhì)因數(shù)就不是問題。因?yàn)樵急硎痉ㄒ呀?jīng)表達(dá)了最終要分解的形式。

  表征學(xué)習(xí)有很多應(yīng)用,在非醫(yī)療領(lǐng)域,如機(jī)器翻譯、圖像識別這些問題,都經(jīng)常使用表征學(xué)習(xí)的方法,將圖像、文本或者聲音這些比較稀疏、高維度的信號,轉(zhuǎn)換成一個稠密、低維度的向量?;谶@個向量,我們可以更好地去刻劃原有數(shù)據(jù)之間的相似性或內(nèi)在結(jié)構(gòu),然后去更好地建模。

  4.總結(jié)

  深度學(xué)習(xí)整套模型方法從根本上改變了原始問題、原始數(shù)據(jù)領(lǐng)域的表達(dá)形式,把原有紛繁復(fù)雜的數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換成一個更容易分類、更容易處理的數(shù)據(jù)形式,最后達(dá)到比較好的效果。

  三、當(dāng)前醫(yī)療領(lǐng)域深度學(xué)習(xí)應(yīng)用熱點(diǎn)方向

  當(dāng)前宣傳的最火的就是深度學(xué)習(xí)。因?yàn)樗谋碚魈幚砟芰?,可以很好的把很多現(xiàn)實(shí)問題轉(zhuǎn)換成可以處理的形式。深度學(xué)習(xí)擅長處理的就是高維度、稀疏的信號。圖像就是這些信號中一種有代表性的形式。醫(yī)學(xué)影像處理應(yīng)用很明顯必然是一個熱點(diǎn)方向。除了醫(yī)學(xué)影像處理以外,臨床里邊還有很多其他問題域,比如時(shí)序信號處理、臨床數(shù)據(jù)的信息提取等等,這些雖為很好的問題域,但都不及圖像處理容易得到結(jié)果。

  醫(yī)學(xué)影像處理典型的四大類問題是:影像分類、目標(biāo)檢測、圖像分割和影像檢索等。都能對應(yīng)到日常臨床應(yīng)用里的一些痛點(diǎn)的、比較浪費(fèi)人力的問題。

  四、前沿研究成果

  以下分享臨床問題領(lǐng)域把握比較到位、得到的結(jié)果也比較好的一些論文。因?yàn)槎际轻槍︶t(yī)學(xué)影像數(shù)據(jù),采取的建模方法都是類似的,基本上是基于CNN做各種模型變換,最后得到結(jié)果。

  1.基于乳腺鉬靶影像的病變檢測

  乳腺鉬靶是常見的乳腺癌早期篩查方法,它的診斷難度其實(shí)不算大。如果有一個模型能夠有效地檢查鉬靶影像中間異常密度區(qū)域,就可以很好地降低人工篩查的工作量。在這篇文章里,達(dá)到的結(jié)果接近人類專家的平均水平,這是一個非常了不起的結(jié)果。

  2.腦部核磁共振影像中的白質(zhì)高信號灶分割

  為什么關(guān)注白質(zhì)高信號灶?因?yàn)橐坏┖舜殴舱裆厦姘l(fā)現(xiàn)腦白質(zhì)里有異常信號表達(dá)的時(shí)候,很有可能說明,在未來的一段時(shí)間內(nèi)患者容易發(fā)展出帕金森氏癥,所以它是預(yù)測帕金森氏癥的一個有力指標(biāo)。這里最重要的是怎么能準(zhǔn)確地分割出腦白質(zhì)的高信號灶。這篇論文用的也是相對比較傳統(tǒng)的模型組合,最后得到的分割效果接近了人類專家的水平,也是一個不錯的結(jié)果。

  3.基于皮膚鏡照片的皮膚癌分類診斷

  這是斯坦福做的之前引起較大影響的論文,結(jié)果已經(jīng)達(dá)到了人類專家水平,甚至超過了大部分人類專家,接近了一些非常有經(jīng)驗(yàn)的專家。而它用的結(jié)構(gòu)卻是非常傳統(tǒng)。

  深度學(xué)習(xí)模型本身就是一種具有非常強(qiáng)表達(dá)力的模型,那么我們再去構(gòu)建很復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)、增加很多參數(shù)的話,其實(shí)很可能會變成過擬合的狀態(tài),反而無助于結(jié)果的一般化。所以,最重要的是我們?nèi)绾文苣玫阶銐蚨嗟?、有?biāo)注的、高質(zhì)量的數(shù)據(jù)集。數(shù)據(jù)集的規(guī)模越大,數(shù)據(jù)質(zhì)量越高,最后能達(dá)到的效果一定會越好。相比于機(jī)器學(xué)習(xí)領(lǐng)域中大家爭先恐后地去尋找新的網(wǎng)絡(luò)結(jié)構(gòu)、新的激活函數(shù)、新的優(yōu)化方法的趨勢,我們在臨床需求落地到具體場景時(shí),更應(yīng)該關(guān)注的是原始數(shù)據(jù)怎么取得,怎么能以比較低的成本拿到高質(zhì)量的數(shù)據(jù)。因?yàn)橹灰鉀Q了數(shù)據(jù)這一點(diǎn),建模這一步上面,其實(shí)并不存在決定性門檻。

  4.基于數(shù)字病理切片的乳腺癌淋巴結(jié)轉(zhuǎn)移檢測

  這一篇是GoogleBrain給出的,對高分辨率的數(shù)字病理切片,基于GoogleInceptionNet的網(wǎng)絡(luò)結(jié)構(gòu)去做特征提取,最后進(jìn)行分類,然后刻畫出來的乳腺癌細(xì)胞在組織上面的分布情況。它的檢測效果達(dá)到了人類專家水平。且在與Google有合作的幾個醫(yī)院里,用訓(xùn)練集之外的真實(shí)數(shù)據(jù)去驗(yàn)證的結(jié)果仍然相當(dāng)不錯,這對于數(shù)字病理切片分割和性質(zhì)的判斷是很有應(yīng)用前景的。

  5.基于眼底照片的糖尿病性視網(wǎng)膜病變檢測

  這篇是GoogleBrain的結(jié)果,仍然是以InceptionNet為基礎(chǔ)的模型結(jié)構(gòu)。本身眼底鏡影像相比于其他影像最麻煩的地方在于,眼底鏡之間的數(shù)據(jù)異構(gòu)性太大,不同人拍攝出來的眼底鏡的曝光程度、偏心程度、視野范圍,都有很大的變異性。如何很好的在預(yù)處理階段盡可能的消除這些變異性影像,是它做的重要工作。最后達(dá)到的效果也是相當(dāng)不錯,判斷視網(wǎng)膜病變嚴(yán)重程度的準(zhǔn)確率和人類專家持平。

  6.胸片骨減影應(yīng)用

  通常來說,面向的數(shù)據(jù)集都是斷層掃描,因?yàn)閿鄬訏呙枘軌颢@得盡可能多的數(shù)據(jù)。但是,斷層掃描單次檢查對于患者的輻射量很大,用X射線要反復(fù)去切患者身體,輻射量要比做一次X光胸透大得多。我們想,有些患者是不是可以從單次胸透這種以很低劑量接受的檢查的結(jié)果里面,發(fā)掘出來盡可能多的信息。胸透之所以提供信息量有限,是因?yàn)樾赝甘且粋€平面的疊加,把骨骼密度和人體里面軟組織的密度分布情況,都疊加在一起,很難看清楚細(xì)節(jié),誰也不知道這一部分吸收的X射線,到底是因?yàn)槟膫€組織產(chǎn)生的。

  我們看軟組織時(shí),會希望把骨骼引起的影響給消減掉,也就是說把骨骼的影子去掉。怎么去除骨骼影這個問題很早就有人思考。醫(yī)療影像儀器制造商想了一個很聰明的辦法,他考慮軟組織和骨骼對于不同能量的X射線吸收特性不一樣,那就先用低能量X射線拍一張,間隔很短時(shí)間后,再用高能量X射線拍一張,然后基于這兩張照片上面不同組織的吸收特性不一樣,做一個建模,然后利用數(shù)學(xué)方法把這個影減掉,這就是DES,也就是雙能量數(shù)字減影技術(shù)。它可以拍出幾乎看不到任何骨骼影子的軟組織照片,但是DES技術(shù)有一個先天技術(shù)缺陷,是兩次拍攝之間有一個間隔時(shí)間。

  人是活著的,人體的組織在不停地蠕動,在間隔過程中,器官可能會變形,可能會移位,然后會造成DES技術(shù)拍出來的軟組織照片有很多偽影,這個偽影會誤導(dǎo)醫(yī)生。在這個文章里面,它利用深度學(xué)習(xí)方法,基于單張傳統(tǒng)胸透照片剔除其中的骨骼痕跡,得到的結(jié)果比傳統(tǒng)DES攝影的軟組織細(xì)節(jié)效果更好,也沒有DES技術(shù)中產(chǎn)生的軟組織偽影,這一篇文章是很有啟發(fā)性的。

  五、醫(yī)學(xué)數(shù)據(jù)處理方向、成果、挑戰(zhàn)

  1.醫(yī)學(xué)數(shù)據(jù)處理方向

  一是臨床信息的提取。包括我們?nèi)绾稳グ褌鹘y(tǒng)的非結(jié)構(gòu)化文本病歷進(jìn)行電子化、結(jié)構(gòu)化,轉(zhuǎn)變成可分析、可處理的結(jié)構(gòu)化數(shù)據(jù)。

  二是掌握結(jié)構(gòu)化數(shù)據(jù)。誰掌握了越多的可分析的結(jié)構(gòu)化數(shù)據(jù),誰就能做出越多的臨床科研成果,數(shù)據(jù)是最核心的價(jià)值。零氪科技開發(fā)了Fellow-X自動結(jié)構(gòu)化引擎,可以讓95%以上通過HIS系統(tǒng)對接的電子病歷,自動轉(zhuǎn)化成可分析、可處理的結(jié)構(gòu)化數(shù)據(jù),極大的降低了結(jié)構(gòu)化的工作量。還有剩下的只能靠人工部分,也設(shè)計(jì)了一個很好的雙錄入加QC的比對流程去處理那些很難處理的少量病歷。

  2.醫(yī)學(xué)數(shù)據(jù)處理成果

  基于結(jié)構(gòu)化病歷的數(shù)據(jù),得到成果。其中包括肺部結(jié)節(jié)的檢測模型、重要并發(fā)癥的風(fēng)險(xiǎn)預(yù)測?,F(xiàn)在做的是中性粒細(xì)胞減少癥、血紅蛋白減少癥、血小板減少癥這些的風(fēng)險(xiǎn)預(yù)測。它們是肺癌患者化療后很容易出現(xiàn)的一種惡性并發(fā)癥,一旦出現(xiàn)嚴(yán)重的癥狀可能會造成生命危險(xiǎn)。如果應(yīng)用了零氪科技的預(yù)測模型,可以提前預(yù)知患者出現(xiàn)嚴(yán)重并發(fā)癥的風(fēng)險(xiǎn)如何,然后在化療前就給予適當(dāng)處理,降低出現(xiàn)嚴(yán)重并發(fā)癥的風(fēng)險(xiǎn)。

  3.醫(yī)學(xué)數(shù)據(jù)處理挑戰(zhàn)

  主要有三大塊,一是優(yōu)化目標(biāo)的定義,也就是說問題本身的定義如何;二是可用數(shù)據(jù),你能否拿到足夠多的可用數(shù)據(jù);三是模型的可解釋性,如何處理對模型結(jié)果推理過程的置疑。

  優(yōu)化目標(biāo)定義:之所以是一個問題,是因?yàn)榕R床上面很多問題的定義是模棱兩可的,我們只能憑經(jīng)驗(yàn)、憑一些醫(yī)生的日常行為來粗略地去刻畫這個問題,很難拿到一個數(shù)學(xué)上非常精確的問題定義。但是一旦問題定義不精確,最后對問題建模后的結(jié)果必然不對。所以優(yōu)化目標(biāo)的精確定義是非常重要的。

  可用數(shù)據(jù):即可用數(shù)據(jù)、高質(zhì)量的數(shù)據(jù)集的重要性。

  模型因果性、可解釋性:這是與臨床結(jié)合做研究的時(shí)候一個獨(dú)有的問題。臨床是和人的生命息息相關(guān)的,所以做的任何一件事情都要有理有據(jù),都要有因果推論的關(guān)系。但是,我們做機(jī)器學(xué)習(xí)模型時(shí),很容易陷入到直接對相關(guān)性進(jìn)行建模的這樣一個陷阱里。相關(guān)性建模涉及的兩個因素未必有直接的因果關(guān)系,得出的這個模型,如何解釋它最后結(jié)果的意義,是一個很難處理的事情。這一點(diǎn)就橫亙在很多模型最后產(chǎn)品化、產(chǎn)業(yè)化的路上面,是一只攔路虎。如果不解決可解釋性問題的話,就很難邁過這道門檻,把機(jī)器學(xué)習(xí)成果投入實(shí)際產(chǎn)業(yè)化。

  謝謝大家。

責(zé)任編輯:陳近梅

分享: