人工智能“訓”出影像科“大拿”
春節(jié)長假剛過,一則消息就讓人工智能(AI)圈振奮不已。在2月22日最新一期的《細胞》雜志上,廣州市婦女兒童醫(yī)療中心張康團隊的研究榮登雜志封面,他們所帶來的成果是一款能精確診斷眼病和肺炎兩大類疾病的AI系統(tǒng)。
本文引用地址:http://www.bjwjmy.cn/article/201803/376658.htm

對于以數(shù)據(jù)為基礎食材的AI來說,沒有什么比醫(yī)學影像數(shù)據(jù)更好“咀嚼”的
在2月23日舉辦的新聞發(fā)布會上,研發(fā)團隊介紹,新一代AI平臺“本領強大”,既能讀X光片和超聲數(shù)據(jù),又可以閱讀CT(X射線斷層掃描)和MR(磁共振)影像;可在30秒內診斷黃斑變性和糖尿病視網膜黃斑水腫這兩種眼科疾病,還可在幾秒內對兒童肺炎病原學類型進行差異性分析和判定,診斷的準確性和靈敏性均達到90%以上。
據(jù)了解,這不僅是中國研究團隊首次在頂級生物醫(yī)學雜志發(fā)表有關醫(yī)學人工智能的研究成果,也是世界范圍內首次使用如此龐大的標注好的高質量數(shù)據(jù)進行遷移學習,并取得高度精確的診斷結果,實現(xiàn)用AI精確推薦治療手段的突破。
“未來我們將繼續(xù)增加這個系統(tǒng)能夠診斷的視網膜疾病,同時還將加入包括腫瘤等其他系統(tǒng)的疾病。”美國加州大學圣地亞哥分校人類基因組醫(yī)學研究所所長、廣州市婦女兒童醫(yī)療中心基因檢測中心主任張康表示。
舉一反三的遷移學習
在眼科治療中,視網膜OCT(光學相干斷層掃描)成像技術是最常用的診斷技術之一,通過獲取視網膜組織的高分辨率圖像,醫(yī)生們能夠精準地對年齡相關性黃斑變性和糖尿病性黃斑水腫等致盲性眼病作出診斷,并提供治療方案。
基于OCT技術的普遍性,如果能讓AI技術來處理這些圖片,無疑將會大大增強診斷的效率和準確度。為此,張康團隊獲取了超過20萬張OCT的圖像,并使用其中來自近5000名患者的10萬張圖像,訓練一款深度學習算法。在經歷了大量迭代訓練后,這款算法的準確率達到了目前的最優(yōu)值。
“在學習了超過20萬病例的OCT圖像數(shù)據(jù)后,AI平臺診斷黃斑變性、黃斑水腫的準確性達到96.6%,靈敏性達到97.8%,特異性達到97.4%。”據(jù)張康介紹,新一代AI平臺既能基于OCT數(shù)據(jù)實現(xiàn)常見視網膜疾病的識別和嚴重性定量評估,也能基于胸部X光影像數(shù)據(jù)實現(xiàn)兒童肺炎病原學類型的差異性分析和快速準確判定。
那么,“學習訓練”后的AI平臺,診斷水平為什么會得到快速提高?這就是該研究應用算法的創(chuàng)新之處——遷移學習。
所謂“遷移學習”,就是把已訓練好的模型參數(shù)遷移到新的模型來幫助新模型訓練,也就是運用已有的知識來學習新的知識,找到已有知識和新知識之間的相似性。這實際上就相當于舉一反三。
“比如你過去沒有見過老虎,但當你見了三只老虎之后,再出現(xiàn)第四只你就認識了。”醫(yī)學影像人工智能專家、匯醫(yī)慧影CEO柴象飛對《中國科學報》記者解釋,“當我們對一個事物建立了基本認知之后,再去學習新的事物就會相對容易,并且只需很少的樣本就可以有一個知識的遷移,這就是遷移學習。”
相較于其他大多數(shù)學習模型的“從零開始”,遷移學習利用卷積神經網絡(CNN)學習基于已有的訓練好的源任務參數(shù)的基礎上學習目標任務輸入數(shù)據(jù)的特點,獲得新的網絡模型及其參數(shù)。以醫(yī)學影像學習為例,該系統(tǒng)會識別目標系統(tǒng)中圖像的特點,從研究人員導入的源系統(tǒng)的結構和參數(shù)從發(fā),利用輸入圖像數(shù)據(jù)的相似性訓練構建新的系統(tǒng)模型和參數(shù)。
華中科技大學生命科學與技術學院教授薛宇表示,傳統(tǒng)機器學習算法訓練數(shù)據(jù)集大,特征提取比較困難,這樣造成的結果是,數(shù)據(jù)集小預測不準,變大后預測準確率提高,但數(shù)據(jù)集再大就又不準了。深度學習的好處是,數(shù)據(jù)集越大準確性越高,特征提取能力也比傳統(tǒng)機器學習算法強得多。
“CNN是深度學習算法里的一類方法,處理圖像數(shù)據(jù)比較有優(yōu)勢。這項研究策略是先讓機器學習1000類圖片的特征然后建立模型,再針對需要研究的問題進行遷移學習,這樣的話,訓練集足夠大準確性也高。”薛宇點評道,“理論上訓練集不斷增大,準確性可以完全超過任何頂級專家的診斷。”
首先要克服數(shù)據(jù)困境
對于以數(shù)據(jù)為基礎食材的AI來說,沒有什么比醫(yī)學影像數(shù)據(jù)更需要“咀嚼”的。在醫(yī)療中,超過80%的數(shù)據(jù)來自于CT、X線、MR、超聲等醫(yī)學影像,AI可以借助這些海量數(shù)據(jù)生成算法模型,保證模型最大的包容性。
但在柴象飛看來,醫(yī)療領域還有一個顯著特點,就是醫(yī)療數(shù)據(jù)沒有辦法像人臉、指紋、車牌等圖像數(shù)據(jù)一樣有一個豐富的來源。
“實際上,醫(yī)療影像的數(shù)據(jù)是很有限的,尤其單病種,我們每個人平均一年都拍不到一張片子,比如間質性肺炎或某一個部位的骨折,全國每年可能只有幾萬個患者,并且還分散在各個地區(qū)及各個醫(yī)院,數(shù)據(jù)獲取十分困難。”柴象飛說。
正如影像科醫(yī)師需要閱讀大量的臨床醫(yī)學圖像一樣,“喂食”病理圖像數(shù)據(jù)也是AI系統(tǒng)最主要的學習方式。“喂食”的病理圖像數(shù)據(jù)越充足,AI的分析能力才能越強大。
“能拿到非常好的數(shù)據(jù),才能知道算法在什么地方存在哪些問題,通過AI反復計算來達到最好的效果。”張康同樣指出,AI應用在醫(yī)療領域,數(shù)據(jù)獲取是一個很大的挑戰(zhàn)。“中國醫(yī)院有大量病人的數(shù)據(jù),但是如果沒有經過純化、沒有高質量標注過,這樣的數(shù)據(jù)直接輸入計算機是不會獲得預期結果的。”
另外,盡管大多數(shù)放射科已經完成過數(shù)百萬次的影像檢查,結構化程度也較高,但是大部分都沒有醫(yī)生的標注信息。醫(yī)療影像的專業(yè)性決定了它的特殊性,影像數(shù)據(jù)的標注大部分只能仰賴專業(yè)的、有經驗的相關醫(yī)學領域從業(yè)人員,很難像語音數(shù)據(jù)、文本數(shù)據(jù)或是自然圖像一樣將標注任務外包出去。
不僅如此,張康還指出,AI醫(yī)療領域一直是由幾個大的IT公司壟斷,如果形成對數(shù)據(jù)和技術的封鎖,也會對AI在醫(yī)療行業(yè)的發(fā)展應用造成限制。
急需培養(yǎng)醫(yī)工融合人才
目前,影像已然成為AI在醫(yī)療領域落地的主要突破口,然而柴象飛認為,這個口子并不容易突破,AI與醫(yī)療場景的結合還有很長的路要走,AI開發(fā)人員和工程化人員對醫(yī)療行業(yè)的陌生就是最大的挑戰(zhàn)。
AI醫(yī)學影像不同于只是單純需要理論型人才或是應用型人才的其他領域,它需要的是大量醫(yī)工結合的復合型人才。在美國有多年研究經歷的柴象飛深刻感受到,國內外在該交叉領域的人才培養(yǎng)方面還存在較大差異。
“在美國,工科學生都有七八年的醫(yī)院工作經驗,從事聯(lián)合性開發(fā),再把成果交給器械廠商做商業(yè)化。但是國內有相關經驗的人卻非常少,大量醫(yī)生有興趣和意愿卻往往工科背景不足,還有一部分醫(yī)生很希望做產業(yè)化,但商業(yè)方面經驗和能力也相對不足。”柴象飛說。
為了培養(yǎng)更多的復合型人才,匯醫(yī)慧影啟動了“優(yōu)才計劃”,將國內優(yōu)秀的醫(yī)學及計算機人才輸送到美國斯坦福大學等全球頂級名校進行學習深造,提高我國醫(yī)療領域綜合型人才在全球市場的競爭力。
廣州市婦女兒童醫(yī)療中心主任夏慧敏表示,患者日益增長的優(yōu)質醫(yī)療資源需要與專業(yè)醫(yī)療人員培養(yǎng)不足的矛盾,是醫(yī)院面臨的痛點之一。研究更好的技術手段和平臺,既能在一定程度上解決醫(yī)療服務能力不足的問題,又能提高健康服務的公平性和可及性。
對于此番研究團隊開發(fā)的這套AI系統(tǒng),張康希望,未來能應用到包括初級保健、社區(qū)醫(yī)療、家庭醫(yī)生、急診室等領域,形成大范圍的自動化分診系統(tǒng)。
評論