0
| 本文作者: 王藝 | 2019-02-13 11:14 |
雷鋒網(wǎng)按:以醫(yī)學(xué)影像分析起家的依圖醫(yī)療,其實也早已在醫(yī)學(xué)NLP領(lǐng)域默默耕耘兩年多。近日,其聯(lián)合廣婦兒研發(fā)的中文AI輔診系統(tǒng)一炮打響。因相關(guān)論文是「全球首次」中文電子病歷NLP技術(shù)刊發(fā)在頂級醫(yī)學(xué)雜志上,該診斷系統(tǒng)備受業(yè)界關(guān)注。雷鋒網(wǎng)第一時間采訪到依圖醫(yī)療CEO倪浩,深挖系統(tǒng)背后的技術(shù)細(xì)節(jié)及依圖醫(yī)療在NLP領(lǐng)域的布局與思考。
2月12日,國際知名醫(yī)學(xué)科研期刊Nature Medicine(《自然醫(yī)學(xué)》)在線刊登了一篇題為《使用人工智能評估和準(zhǔn)確診斷兒科疾病》(Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence)的論文,這是頂級醫(yī)學(xué)雜志全球首次發(fā)表通過自然語言處理中文文本型電子病歷進(jìn)行臨床診斷相關(guān)技術(shù)的論文。

論文闡述通過深度學(xué)習(xí)與知識圖譜相結(jié)合,解構(gòu)臨床電子病歷數(shù)據(jù),形成一套智能病種庫,并在其基礎(chǔ)上構(gòu)建輔助診斷模型的技術(shù)。也就是說,有了這項技術(shù),計算機(jī)能夠「讀懂」病歷,并進(jìn)行初步診斷。
其中,「智能病種庫」是此次研究的核心成果,基于該病種庫進(jìn)行系統(tǒng)開發(fā)擁有很大的想象空間。除上述輔助診斷模型外,智能導(dǎo)診、輔助問診等系統(tǒng)也可基于該病種庫搭建,能夠有效緩解醫(yī)療資源不足、分配不均的問題,推動醫(yī)療供給側(cè)改革進(jìn)程。
據(jù)悉,此項技術(shù)及論文由廣州市婦女兒童醫(yī)療中心(以下簡稱「廣婦兒」)夏慧敏教授、加州大學(xué)圣地亞哥分校張康教授、廣婦兒數(shù)據(jù)中心梁會營博士、醫(yī)務(wù)部孫新主任以及兒內(nèi)科門診何麗雅主任團(tuán)隊與依圖醫(yī)療、康睿智能科技等業(yè)內(nèi)頂級研究團(tuán)隊及廣東省再生醫(yī)學(xué)重點實驗室聯(lián)合研發(fā)并撰寫。
6000余個Schema,55種疾病
依圖醫(yī)療CEO倪浩介紹,本次論文所述的是依圖醫(yī)療在NLP領(lǐng)域兩年積累的成果,期間依圖醫(yī)療進(jìn)行了大量的基礎(chǔ)性研究,如知識圖譜的構(gòu)建、結(jié)構(gòu)數(shù)據(jù)的清洗標(biāo)注、標(biāo)注體系的設(shè)計、算法的選擇等。
整個系統(tǒng)的運作分為兩部分。首先,基于醫(yī)療知識圖譜,利用深度學(xué)習(xí)技術(shù)按照一定規(guī)則解構(gòu)臨床電子病歷數(shù)據(jù),將非結(jié)構(gòu)化文本數(shù)據(jù)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),建成一套智能病種庫。進(jìn)而,基于這套智能病種庫搭建各種診斷模型,本次發(fā)布的論文中,團(tuán)隊搭建了一套輔助診斷系統(tǒng),系統(tǒng)通過讀取病人病歷向醫(yī)生提供診療建議。
具體說來,在病種庫構(gòu)建階段,團(tuán)隊先根據(jù)醫(yī)學(xué)指南、專家共識庫等現(xiàn)有材料構(gòu)建醫(yī)學(xué)知識圖譜,并在該知識圖譜的基礎(chǔ)上,采用深度學(xué)習(xí)技術(shù)按照「標(biāo)準(zhǔn)解構(gòu)Schema」解構(gòu)訓(xùn)練所用的電子病歷數(shù)據(jù)。這些Schema由依圖醫(yī)療及廣婦兒各位專家主任共同制定,用以描述某一病種的所有有意義的特征。
同一病種的不同維度(如診斷、家族史、主訴、實驗室檢查、影像學(xué)檢查、超聲檢查等)被分別構(gòu)建獨立的Schema。依圖醫(yī)療表示,已聯(lián)合30余位高級兒科醫(yī)師及10余位信息學(xué)研究人員構(gòu)建了6000余個Schema,搭建起基礎(chǔ)模型,并通過大量數(shù)據(jù)訓(xùn)練,形成前文所述的「智能病種庫」。該病種庫現(xiàn)已覆蓋55種疾病,且在持續(xù)檢驗迭代中。
倪浩為整個過程進(jìn)行了更加形象的解釋。系統(tǒng)的目的是基于Schema從原始電子病歷數(shù)據(jù)中提取信息點,并將其結(jié)構(gòu)化、標(biāo)準(zhǔn)化,因此采用LSTM的注意力機(jī)制搭建模型,通過不斷對文本進(jìn)行「提問」抽取信息。例如在對文本「左肺上葉可見腫塊」進(jìn)行解構(gòu)的過程中,系統(tǒng)通過不斷的「提問」——「是不是左肺上葉?」「左肺上葉有沒有腫塊?」……抽取信息。實際上,提問的過程就是掃描文本的過程。
病種庫構(gòu)建好后,團(tuán)隊利用分層的邏輯回歸的分類器建立診斷模型。倪浩介紹道,該模型與其他系統(tǒng)的不同之處在于其采用層次化結(jié)構(gòu)進(jìn)行判斷。
第一級分類使用基于器官的方法,診斷首先被規(guī)范成廣泛的器官系統(tǒng)(如呼吸系統(tǒng)、神經(jīng)系統(tǒng)、消化系統(tǒng)等);第二層進(jìn)一步細(xì)化,分成器官子系統(tǒng)和更具體的診斷組(如上呼吸道和下呼吸道);同時,采用病理生理學(xué)或病因?qū)W方法(如感染性、炎性、創(chuàng)傷性、腫瘤性等)將診斷分層決策樹的設(shè)計調(diào)整至臨床最適用的情景。

診斷模型的層次化結(jié)構(gòu)
130萬份訓(xùn)練所用病例,88.5%診斷準(zhǔn)確率
此次模型的訓(xùn)練數(shù)據(jù)集中在兒科。倪浩表示,選擇兒科切入是本著一個非常樸素的想法——解決兒科醫(yī)生短缺的問題。另外,由于兒童沒有準(zhǔn)確表達(dá)病癥的能力,因此被稱為「啞科」,這為模型的設(shè)計帶來了更大的挑戰(zhàn)。倪浩認(rèn)為,使用兒科數(shù)據(jù)訓(xùn)練的系統(tǒng)若想遷移到成人科室,技術(shù)相通,難度不大。
據(jù)廣婦兒數(shù)據(jù)中心梁會營博士介紹,自2016年1月份到2017年6月份,團(tuán)隊共收集近60萬名患者的130萬份門診記錄電子病歷,平均年齡2.5歲,其中40%是女孩,60%是男孩,涵蓋包括消化科、呼吸科等在內(nèi)的55種疾病,覆蓋小兒常見病的80%以上,并且覆蓋幾種危急疾病,如腦膜炎等。
倪浩介紹道,130萬份訓(xùn)練數(shù)據(jù)可以說是非常大的體量。對于一般在頂級雜志刊發(fā)的論文來說,上萬份訓(xùn)練數(shù)據(jù)已經(jīng)非常少見,大多是百級別、千級別的數(shù)據(jù)。倪浩表示,此次團(tuán)隊獲得大量數(shù)據(jù)得益于廣婦兒的數(shù)據(jù)化建設(shè)及門診接待能力。
據(jù)雷鋒網(wǎng)了解,廣婦兒的門診量在中國所有醫(yī)院中可以排在前十名,僅2017年一年門診量便達(dá)470萬,且產(chǎn)生的數(shù)據(jù)集中在婦女兒童領(lǐng)域。此外,廣婦兒的信息化建設(shè)能夠追溯到2015年,已完成門診病歷的互聯(lián)互通。
在模型驗證階段,團(tuán)隊隨機(jī)抽取1.2萬份電子病歷,并選取20位醫(yī)生,按年資高低分為五組進(jìn)行人機(jī)對比。結(jié)果表明,模型準(zhǔn)確率為0.885,高于兩個初級醫(yī)生組(分別為0.841和0.839),與第三組醫(yī)生數(shù)據(jù)接近但沒有趕超。
目前整個系統(tǒng)搭載在醫(yī)院門診系統(tǒng)中,醫(yī)生輸入病歷后可以一鍵獲得輔助診斷結(jié)果。系統(tǒng)自2018年5月上線至今,已累計服務(wù)33位醫(yī)生,其中包括6位正高、13位副高,以及14位主治;系統(tǒng)累計訪問量6.4萬,其中僅2019年1月前20天便有3萬次訪問。梁會營計算,若月調(diào)用量達(dá)一萬次,則相當(dāng)于5位住院醫(yī)師的門診接待量。
向多模態(tài)的醫(yī)療數(shù)據(jù)處理邁進(jìn)一步
倪浩談到,NLP技術(shù)的加入將為醫(yī)療領(lǐng)域帶來非常大的價值,因為醫(yī)療數(shù)據(jù)本身呈現(xiàn)多模態(tài)特征。當(dāng)一位患者進(jìn)入醫(yī)院就診,會產(chǎn)生影像檢查數(shù)據(jù)、電子病歷數(shù)據(jù)、化驗結(jié)構(gòu)化數(shù)據(jù)等,那么若人工智能要為未來醫(yī)生提供全面的診斷輔助和治療輔助,其對各種模態(tài)數(shù)據(jù)的理解能力都非常重要。
「這次實驗最大的意義在哪里?本質(zhì)上在于我們給出了一套適用于臨床環(huán)境的利用原始電子病歷進(jìn)行輔助診斷的一整套理論體系和實踐方法。」倪浩表示,「當(dāng)然,這個方法不能說是完備的,但是目前世界上可見的理論體系中相對完整且被證明有效的?!?/p>
談及未來,倪浩表示不急于計劃廣泛落地,希望借助廣婦兒的場景提高系統(tǒng)性能,覆蓋更多疾病。目前,廣婦兒的互聯(lián)網(wǎng)醫(yī)院已經(jīng)上線,支持在線導(dǎo)診、掛號、機(jī)器人問診等一整套線上醫(yī)療服務(wù)。在互聯(lián)網(wǎng)醫(yī)院項目上,依圖醫(yī)療作為技術(shù)提供方也與廣婦兒有著密切的合作,借助該項目,依圖醫(yī)療的技術(shù)有了更大的施展空間及更加多元化的數(shù)據(jù)樣本來源。
倪浩表示,未來該系統(tǒng)將有望與語音識別技術(shù)結(jié)合,醫(yī)生詢問及患者主訴的過程被實時轉(zhuǎn)化為文字,對話結(jié)束后即刻生成電子病歷,結(jié)合輔助診斷系統(tǒng),醫(yī)生可一鍵生成患者可能患有的疾病及下一步檢查建議。更進(jìn)一步地減少醫(yī)生負(fù)擔(dān),提高診療效率。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。