我交流的題目是“醫院大數據利用需求與技術挑戰”,剛才王主任說了,大數據是最熱的話題,但是在醫院里要真正讓大數據不僅僅是落實在話題上,要結出果來,要能成功應用,我認為有三個主要的因素:
301醫院醫學信息研究所總工? 薛萬國,第七屆移動醫療產業大會現場圖
因素一:大數據利用首先要有好的需求,或者要有好的思路。你要有創意,這個創意哪來?就是要從醫院臨床、管理的角度提出來,這是第一個前提。
因素二:有了需求、思路,提出了問題,我們要看一看有沒有數據支持?所以好的數據很重要。有的人講,大數據時代,不需要數據質量好,只要足夠大。我們說那是沒辦法了,真正在醫院利用里,特別在醫療里,每一個病例都很重要,我們都要追求它的質量。所以數據的質量,我們認為還是很重要的。
因素三:有了數據,我們要有好的方法、手段。如果沒有很好的方法,你說我們現在要讓機器說IBM的沃森可以對腫瘤病人給出治療方案,我們的機器可以對影像進行自動診斷,那我們數據也有,想法也有,但是如果沒有很好機器學習的手段,沒有很好硬件的支持,沒有很好軟件的算法,仍然做不到。
所以這三個要素,在醫院大數據利用里,我認為是非常重要的三個要素。挑戰也就是來自于這三個方面。
下面我們來看一下一個典型的大數據應用的流程,大體上是這么一個過程。首先我們從底往上說,首先是數據的收集,你要有數據來源。這些年來,我們醫院信息化有了很大的發展,我們之所以今天能說大數據,是因為我們已經有了一定的數據積累,這些數據是什么?是來源于我們的醫療業務過程里的每一個環節。那么在數據利用的時候,這些環節的數據,我們首先要把他們收集到一起,這是第一個環節,形成我們整合的數據,由原始數據形成整合整體的數據。那么我們通常把這個在業務系統里叫CDR。
那么有了整合的原始數據之后,當我們進行數據利用的時候,我們會按照我們利用的目標對數據進行進一步的抽取和轉換,變成一個主題數據,比如我是研究腫瘤的發病病因的,我就會把腫瘤的病例抽取出來,然后把它相關的特征抽取出來,形成一個主題數據。這個過程要進行抽取和轉換,在這個基礎上,我們再按照我們的分析和處理的目標,進行分析建模和數據處理,這是我們典型大數據的利用過程。
打個比方在這個里面,好比我們炒菜,我覺得比較形象。我們真正前期的準備,我們可以認為是買菜、洗菜、切菜然后炒菜,大家只要做飯的人都知道,這個過程里時間最長的花得工夫最大的是什么?是買菜洗菜切菜,炒菜就一下子,我在家做飯的話,我一般喜歡說,讓別人把菜都準備好了,我就拎著勺子就行了,但是前面的工程量都是很大的。到這一步的話,萬事俱備就一勺子就行了,這是我們典型的過程。
那么我們的需求和挑戰來自于哪?我結合這幾個環節分別闡述一下。首先我們在數據收集環節,我們需要完整的數據,在醫院里,你要想支持你的醫療、科研管理,我們總是希望我們的數據是完整的,那么這個完整性來自于我們對各個醫療環節數據的整合,包括門診和住院的整合包括臨床數據和復診數據的整合,也包括醫療和護理的整合,這是我們在醫療環節里數據的整合,只有這些數據全整合在一起,一個不差,我們在用的時候,我們的原材料才是齊的,這是一個方面。
第二個方面,隨著我們精準醫學的發展,我們現在越來越看中,特別像腫瘤的靶向治療,我們需要對病人除了他臨床的表型數據收集以外,我們需要收集他組學數據,特別我們現在基因測序的發展也很快,那么我們在醫院就會發現,越來越多的病人在做完病理診斷以后,醫生會說,你去做一個基因檢測吧,要看一看它某些突變是陽性還是陰性的,然后我們給他選用一些精準的治療方案。
所以在今天來講,我們需要把臨床數據和組學數據進行一個整合,要進行綜合的分析。
第三個除了意料之外,我們還需要大量把醫療數據和健康數據進行整合,比如我們要總結一些疾病的病因,它的特征。我們就需要建立一些健康人群和疾病人群的對照,我們現在國家也發布了一些大隊列的科研項目。這里面很重要的就是要收集健康人群和疾病人群的數據,兩個融合起來做對照,這是一個基礎的工作,所以這個數據也是需要進行整合的。
所以這是我們在數據收集環節里,非常需要達到的完整的數據。但是我們現在醫院里,在常見的數據利用上,我們碰到最大的問題,是數據不完整,數據不完整又最突出的問題,是關于隨訪數據的問題。我們在臨床調研的時候,我們成立大數據中心要做什么?臨床的專家給我們提了一個問題,說像我們一個綜合醫院,這么多年收治腫瘤病人非常多,我們的科室現在治療腫瘤的手段也很多。比如外科有手術治療的,有化療、放療的,有介入治療的。那么介入治療又有靠超聲介入,靠導管的介入,那么他就說,你能不能把我們這么多腫瘤病例數據,按照不同的治療方法給我們分一下,看看每種治療方法它的貢獻,它的質量是什么樣的?
我們覺得是一個很好的思路,我們緊接著下來我們在想,比如肝癌,你用不同的療法分別得到的效果是什么?投入成果是什么?首先我們碰到一個問題,我怎么知道肝癌病人他的治療效果?大家知道,你做完之后,在醫院里是獲得不了效果的,一定是不斷的隨訪,指導他的生存期。
所以如果沒有這樣一個結果,那這么簡單的一個事我們就做不了。所以這就是我們希望要拿隨訪的數據和醫院期間的數據做對照,可是恰恰現在這樣一個問題,在我們大部分的醫院里是一個薄弱的環節。很多醫院都是在科室進行零散的隨訪、重復性的隨訪,為了做不同的課題,對同一個病例反復的隨訪,數據都是孤島不完整。
所以我們迫切的希望,我們能不能有一個通用化的隨訪平臺,能夠把這些隨訪數據收集起來。但是要解決這樣一個問題,我們首先面臨怎么樣讓病人能夠遵從你的隨訪,把病人吸引到你的隨訪平臺上來。那就是說,我們希望建立一個交互的,能夠對病人來講,既能解決他的健康問題,又收集數據的這樣一個機制。如果沒有這樣一個機制,病人可能過一段時間不跟你聯系了,這樣一個機制我們怎么建立起來?
第二個從技術手段上來講,每一個科、病的隨訪需要的數據不一樣,隨訪途徑可能不一樣,我們能不能建立一個能夠定制,能夠通過多種手段和病人聯系的平臺,這是我們期望非常需要的東西。我們也看到很多公司做了這樣的產品,比如有網上隨訪、電話隨訪、門診隨訪,但是目標都不一樣。缺乏我剛才講的,能夠把病人和你的醫院和數據需求能夠很緊密的連接一起的機制,需要這么一個平臺,所以這是我們的一個挑戰,這是我講的從數據收集環節。
第二個從抽取轉換環節,我有了數據,我怎么拿到我有效的東西。還以剛才我舉的例子,他說你能夠把不同的治療手段,是化療、手術或者放療的,給我找出來。這個我一想,我們的系統能夠覆蓋這些環節,沒問題,我的病例里,是有這樣的信息,沒一個病人在醫院里,到底是手術還是化療,我肯定是知道的。
但是我們再細想問題來了,我根據什么判斷一個病人是化療病人?大家也可以想這個問題。我們的病案首頁里這個標簽嗎?沒有。那我們的病例里有記載嗎?有,可能有,也可能沒有,但是他用藥可能是知道的。那我們就要想了,化療費用從哪能得到?根據什么找到他,圈定病人的范圍,放療我又怎么找到它?通過超聲的介入我又怎么找到它?這就是問題來了,雖然那個信息有,但是我要把它抽出來,是一個很大的問題。
再比如說,我要研究肺癌和吸引的關系,我怎么知道一個病人是不是吸引?大家說了,個人室里有記錄,但是每一個人的記錄是五花八門的,有的吸引20年,有的戒煙10年怎么判斷?這就是一個問題。如果這樣一些特征,我們不能很簡單的把它抽出來,不能把這個范圍確定,那這個事我們就沒法做,所以我們首先需要一個數據很好檢索的工具,確定一個病人的范圍,把你要的病人找出來。
大家說現在有很多檢索工具了,百度什么都做得很好了,但是我們現在看到的這些檢索工具,大量情況下,在醫院里不能滿足我們的研究需要或者臨床性需要。上次碰到一個公司做得很好的檢索,我給他提了一個需求,我說你能不能把化療以后白細胞下降的病人找出來,我說你的條件不是很靈活嗎?我就這么簡單的一個條件,能不能把化療后白細胞數下降的患者找出來,他說這個不行,這個工具不行,靠人工要去做,這就是我們的問題。
那么同樣是在抽取轉化環節,我們以后建立我們的專科專名數據庫,剛才我講到了,比如我一個研究,按照主題建立數據庫,下面做了一個例子,這是我們隨便一個科室題的需求里,我截了一個例子。這是一個婦科腫瘤的患者,列了大概幾百個數據量,我截出一個很小的片段,我們可以看到,這里面每一個數據量,如果我們從病例里抽,都要解決很多問題。
他說我現在是手工整理,excel表來整理,每一份病例需要2-3個小時。這樣的手段和大數據的利用相比,摘菜洗菜的功夫花的太長了。那么我們能不能通過我們這樣一些自動的處理,來把我們的病例能夠抽出這樣的特征來,這是我們面臨的挑戰。
再比如說自然語言處理的問題,剛才講到吸煙的問題,很典型的自然語言處理。還有說這個人是不是有高血壓、糖尿病,因為這些疾病,可能對他一些數據,對他其他的病會有影響。當我們做這種研究的時候,我們需要把這些特征抽出來,怎么抽出來,就要從病例的描述里做自然語言處理之后,把這些特征抽出來。但是這個在今天來講,我們仍然面臨很大的問題,特別要對這種自然語言進行語義上的理解,不僅僅是語法,包括語義,這就涉及到我們醫學自然語言本體的問題了,就是你的癥狀描述到底是怎樣的結構,每個結構術語、詞匯是什么樣的,我們要建立起來,才有可能解決這樣一個問題,這也是很大的挑戰。
在抽取環節還有一個問題,我們希望我們的數據將來能夠公開給大家用。公開給大家用的時候,我們就不希望病人的隱私被泄漏,所以我們說把這些隱私的數據去掉,變成一個生物的數據讓大家能夠用。這里面存在一個問題,我們怎么樣去隱私,哪些數據是隱私?確定哪些數據是隱私之后,我們怎么把它去除掉。特別我們在病例里這樣一些描述,比如他的工作單位,他的家庭住址,我們希望能夠把它隱掉,怎么隱掉,也是一個問題,這也是我們在數據利用的挑戰。
在第三個環節,我在前面擇菜洗菜都完了以后,在炒菜的時候,雖然時間很短,但是我們需要一些技巧,處理的技巧或者一些算法一些手段,這里面我們舉幾個例子。比如我們已經有了數據,我們需要做一些個性化的診療。這是國外的一個例子,是把多中心乳腺癌的病例,收集了20幾個醫療機構17萬份乳腺癌的病例。然后把這些病例的治療方法進行分組,按照它不同的個體情況,她是化療的還是手術的等等不同治療方案進行分組,分完組以后,結合他愈后隨訪的結果,然后就形成了不同的治療方案,同種病形成不同的治療方案,不同的治療方案有不同的長短,比如他的生存質量和生存周期。
當下一個患者來的時候,他只要把這個患者的個體癥狀代入到這樣一個分組里,就可以給他找出一個最適合他的治療方案,這是一個很典型的大數據的利用。這個數據里,就是要針對這樣一些病例進行分組的處理,按照治療方案進行聚類分組這樣一個處理,這是我們處理的一種方法。
另外我們在臨床上用的時候,經常需要建立一些疾病風險的分析,對一些不良的事件,或者嚴重的并發癥我們能夠提前預期,這里面我們就需要建立一些模型。比如機器學習模型,這里講得是針對的是缺血液心臟病風險的模型,假如有了他的生命體征、心電圖波形,有了各種檢查指標,我們可以根據這樣一些指標,通過機器學習的辦法,建立一個人工神經網絡,然后通過神經網絡可以輸出一個結果,把病人的這些數據輸進去之后可以形成一個結果。
這里面我們就要建立一個機器學習的辦法,來建立這樣一個神經網絡,我們需要機器學習這樣的手段。在精準醫學研究里,我們需要把疾病的臨床表型的數據和組學數據結合起來進行聚類的分析,比如對于腫瘤我們可以進一步區分他是什么樣的基因型。那么確定了以后,我們可以有針對性的治療,在分組的過程中,我們是根據把它臨床的表型和組學的特征進行綜合的分組聚類,分出不同的形狀來,這是一個聚類的方法。
再一個在生物標記篩選上,我們看這樣一個方法,我們通常化驗的時候,經常有一些化驗池,它的特異性,我們希望它特異性很高,但是特異性很高的話,有可能漏解。所以我們希望盡量減少這種漏解,就講敏感性要增加,這兩個是矛盾。我們往往根據大人群的數據統計分析,我們取一個預值,這就不能肯定的說是或者不是。
比如我們做體檢IT抗炎陽性,這是不是代表你一定是癌癥?不是,怎么解決這樣一個問題,我們可以通過多因素生物標記聚合的篩選。比如我們可以把它放在一個三維的維度上,通過多個因素進行聚類,而不是一個因素聚類。多個因素的聚類,這樣聚類以后,可以很明顯的分出來,哪些是疾病人群,哪些是健康人群,比這樣一個單一的標記來的準確的多。這樣多參數聚合的分類,也是我們在臨床或者科研里需要掌握的一種方法。
再比如說,在圖像的分析方面,我們圖像診斷,通過機器學習的辦法,我們現在可以做到說,舉一個例子是對胃鏡下圖像,對胃鏡,到底是糜爛、萎縮還是潰瘍,有機器學習以后,可以自動進行判斷,這個準確率現在可以做到91.2%,非常好的方法。它很大程度上可以代替人工的初篩,我們也需要有這種相應的方法支持。這是對肺結節的識別,現在機器也可以做得非常好。
等等這樣一些例子說明我們在第三個環節上我們需要的一些需求和我們面臨手段上的挑戰,剛才把這三個環節分別做了闡述。
最后講一個問題,很多人說醫院里到底有沒有大數據,我個人的意見,醫院里大量的情況下是小數據,億你看它這個病例數一個疾病幾千例常見,甚至幾百例,上萬例的效果收集的數據就非常好了。如果單純從量上講,大量是小數據,也不需要我們很大的基礎設施支撐。
但是它突出了大數據的特征,就是在分析的時候,它是深度融合的分析,前面舉的例子,雖然量都不大,但是多因素的融合。所以體現了大數據的特征,但是醫院也有少量的大數據,比如說我們病例的檢索,我們希望能夠實時檢索,我們檢索是隨機的,傳統的關系數據庫是不能支持這樣的隨機檢索,或者時間很長。那我們可以把它放在一個并行的系統里去跑,我們可以做到實時性,這就是大數據的利用。
再比如說,我們講得組學數據和影像數據的分析,也是屬于大數據的應用。所以我個人的意見就是,在醫院里說都是小數據其實也不是,雖然是小數據,體現了大數據的特點,也有少量真正大數據的應用。
概括一下醫院大數據利用的需求,可以分為四個方面:
第一方面:臨床醫療方面的應用(個性化診療、疾病早期診斷、不良事件預警)。
第二方面:醫學研究的應用(疾病認識、相關因素分析、疾病精準分型、生物標記篩選)。
第三方面:醫院管理的需求。
第四方面:一些基礎的需求。
大體上醫院的需求可以歸為這四個方面。
同時我們面臨的挑戰,在這三個環節上,我們都面臨挑戰:
挑戰一:在需求上來講,你要有好的思路,好的思路就是要有創意。前幾天我看到一個很有意思的例子,是中國移動利用他跟業務沒有關系的數據,完全是根據手機定位的信息,看到每一個醫院,北京大醫院外來患者和本地患者的比例。不知道大家有沒有注意到這個,非常有意思,實際上他用到的數據跟醫院一點關系都沒有,但是他預測了一個醫院門診人員的構成。
我覺得這是非常好的思路,這就是好的創意。要有典型應用的示范,只要有示范了,我們才能推動整個行業的發展。
挑戰二:在數據領域,我們需要有完整的數據,需要有高質量的數據,我們需要打破醫院的壁壘,實現數據的共享。
挑戰三:在手段或者技術這個環節,我們需要有檢索的工具,需要突破自然語言處理的障礙,需要各種分析、建模、機器學習的方法,這是我們今天面臨的一些有待我們解決的一些挑戰。
最后總結一句話,發展醫療大數據的前景是非常廣闊的,但是挑戰也很多,我們既要仰望星空,又要腳踏實地。
?
劉海一:謝謝薛主任給我們做了一個很實在,可以上天又可以入地的報告,因為現在大數據的應用,雖然都是大家很熱,都很希望做一些事情,實際上真要做到可以落地,能夠見到實效,這塊實際上是目前大家都期望做很多工作的事情。但是任何事情都沒有一個不花工夫就能得到的事情,因為剛才薛主任提到了很多實際的問題,比如一些創意的挖掘,一些數據的清洗,就是要把菜洗干凈,要買來等,這些都是很落地的,實際上真正花了很多功夫都在干這些事情。
那么真正到了你可以炒出菜來可以吃的時候,那都是很后面一段,前面不知多少人做了很艱苦的工作,所以我們再次以掌聲謝謝薛主任。