為了推進數據整合和信息共享、發展以數據為基礎的醫療健康服務體系,11月28日至29日,“2015中國醫療健康大數據峰會”在北京召開,此次會議圍繞“開放、變革、發展”的主題,邀請主管部門、科研機構、醫療機構、優秀企業、市場研究機構等領導與專家、高層及800余位行業精英參與,深入探討科學推進醫療健康大數據的應用和價值挖掘、推動醫療健康大數據依法有序開放、醫療健康大數據互聯互通、數據標準與安全等醫療健康大數據相關熱點議題,為我國醫療健康的數據的發展提供前瞻的思想與觀點,為研究制定促進健康醫療大數據應用的政策和戰略獻計獻策。
在28日下午舉辦的醫療健康大數據應用與創新論壇上,甲骨文大中華區醫療衛生行業總監侯雪橋作了題為《甲骨文醫療大數據與病例探索分析》的精彩演講,以下為演講實錄:
我題目是大數據的自由探索與自助分析。
從甲骨文的角度講,我們希望致力于數據整合和數據分析,幫助醫療產業優化效率,提高它的臨床科研和改進。我們如何用大數據的技術幫助臨床科研人員,幫助我們臨床醫生做基于循證醫學的決策支持,幫助科研人員。
我們真正做醫療大數據實踐的時候碰到一個問題,今天臨床的,無論是科研人員,還是管理者,我們談到的病例,談到的診斷、手術、癌癥、指征,醫療大數據的挑戰,雞同鴨講。IT人員不可能聽懂專業臨床科研人員和臨床管理人員,談到一些CMI等,臨床醫學的循證標準是怎么產生的。
我個人感覺,大數據和真正醫療的數據應用場合結合,最大的問題是我們沒有辦法去找一個全才,又懂IT,又懂醫療或臨床。我們解決大數據技術和醫療領域脫節的問題,我們讓醫療人員自己對大數據進行自由探索的分析。什么叫醫療人員自我完成數據的價值發現,IT人員把所有數據整理好,我們花盡心思設計非常巧妙的工具,讓醫護人員和醫療專業人員自己去探索他想要查詢什么樣的病例,我找到什么樣的癌癥患者,判斷什么樣的指征,分析什么樣的東西,增加條件,減少條件,我把數據給你整理好,你可以非常好地探索。你想做預測,還是分步分析,你拖拽。我把統計工具給你,你自己來。
這是我在北京數據中心做好的臨床倉庫的演示系統,來自一萬名的患者的住院數據。住院的信息比較復雜,有很多數據。今天我是臨床科研人員,我想找到我過去一年間收治的所有癌癥患者,他都有什么樣的病理診斷。我們提交的是說,我們想找到泌尿外科專業,找到診斷,主要是腫瘤診斷的癌癥患者,膀胱惡性腫瘤等五個惡性腫瘤的患者。我們可以看到數據中心的平臺立刻返回,他們平均住院天數15.58天。200多個患者有哪些是淋巴細胞真比比普通患者高的,檢驗報告里檢驗項的淋巴細胞占比,我們提交了以后,就可以從252個患者篩選到一些住院患者。所有的查詢、點選都是醫生自助的。IT把這個維度放在里面,無論是責備條件,還是減少條件,都是醫生在不斷地探索過程中自己突發想到的,我想增加一個條件、增加一個種類,或減少一個條件,減少一個種類。
我分析這252個患者他們的病例診斷在哪分布,就可以拖拽出餅圖。可以配置一個餅圖,讓餅圖的顏色是代表維度,代表病理診斷。在度量上,面積大小是患者的數量。通過這樣簡單的配置,可以去產生醫生,或臨床科研人員自己分析的主題,或一個目標。針對剛才篩選252個患者264次住院的分析,可以點選一下。
我想分析一下這些病理診斷和相互之間做了什么樣的手術,這些手術的費用可以用平均住院天數來代替,有什么樣的關系。這是雙軸的曲線柱狀圖,可以在系統里拖拽出,這里面藍色的是手術名稱和手術例數。黃色的是這21例患者平均住院天數21天,是代表這樣的含義。
我們對比分析這些手術、住院天數和病理診斷有什么樣的關系。在大數據平臺里,可以拖拽出容器的概念,可以把不同的數值放在一起分析把剛才定義的病理診斷,自定義的手術住院天數分析放在一起。我可以點選其他的病理診斷,也可以也變化。我把圖表進行截屏,做進一步研究的時候,一開始提的病理診斷比較少,再增加幾個,所謂自由探索,回到所選的維度,隨機選了兩個病理診斷,就變成三個值對應的患者數。拖拽出的手術和圖表就發生變化,就是我們說的自由的探索,我想找什么樣的患者就找什么樣的患者,我想拖拽什么樣的患者,怎么對照,怎么分析和篩選條件,就是所謂大數據的分享,IT人員可以不用干預。
給到醫院管理者一個新的思路,通過拖拽的方式拖拽出這樣的圖表。球的大小代表患者數量,不同的顏色代表不同的分析。哪些是手術時間不長,很快就做的,但是術后康復的時間到出院時間很長,可以由針對性地,針對不同的科室進行不同的分析。以前我們讓這些數據做成圖表、做成表格,我們理解不是這樣的。今天有大數據技術,只要我們準備好這樣數據,所有的都會交給業務人員,交給管理者,自己親力親為地做探索。
現在電腦上有一個活的系統,比如說點選一些男女的相應患者,看看他們的診斷、手術、藥品,包括療效指標,具體我就不操作了。
談到這么多,可以讓醫生,或者管理者拖拽和點選,可以達到自己大數據的價值發現。真正的挑戰是如何保障這些業務人員對大數據的分析,實時體驗。我找泌尿外科專業,所有的點選下去20分鐘才出來。交互式實時分析數據量非常大,我剛才操作的一萬多個數據倉庫,是TB級的數據倉庫。怎么包括數據分析,這是甲骨文真正的技術優勢。
真正的核心是數據倉庫,將醫院的電子病例,將相關的移動數據構建成倉庫,剛才的拖拽和點選是在這個平臺上去操作的。同時還可以支持傳統的分析,包括醫院進行分析、多維分析,然后報表。所有的甲骨文的一系列的產品,包括甲骨文的一體機,這是突破性的一體機。
今天來的IT人員比較多,我多介紹一下一體機。甲骨文的一體機并不是說我簡單一個X86服務器,把數據庫裝上去了,軟硬件打包賣,是完全不一樣的架構。從傳統數據庫、服務器,我們要考慮數據庫的環境,也數據庫的查詢。甲骨文不是這么回事,所有的查詢都是扔掉了集成的存儲板卡,每一個板卡上有一個小CPU、小內存、兩塊硬盤,非常多的小板卡組成一個大的集群,叫智能存儲集群,它和服務器是通過交換機存儲的。最大的特點,簡單的查詢扔過來以后直接扔到板卡上,有無數個節點一塊算。數據庫服務器只是做一個合并,然后再產生。它把任何一個復雜查詢都分享為無數小節點,就保證了突破的性能。
突破性的設計有幾個特點,數據庫服務器不負責查詢,是結果輸出。真正的查詢是高集群解決的。以前說我們買更好的機器,升更好的CPU,你的X86和你的服務器沒有任何關系,集群里所有的數據會自動區分。數據庫服務器存儲之間的,吞吐也不再成為瓶頸,吞吐非常大。最后有一個方法,每一個板卡都會做保存。
針對醫院,或針對臨床的大數據,一體機的特點是既可以把核心系統放上去,同時也構建非常高性能的數據平臺。因為是采用集群,云的設計,所以高性能、高可靠、易維護。每塊板卡壞了,插上新的把板卡,除非把機器燒掉了,所有的數據都可以進行維護的。包括動態的資源,有多少板卡做His,可能剩下的都變成其他的。
海量的存儲,可以增加內存列數據庫,支持數據挖掘應用的性能。內線支持高性能數據挖掘,特別是對醫療行業,如果做基因組學的測序、噪聲,包括模式識別,可以提供TB級的數據挖掘的支持。最后是包一鍵遷移,所有存在數據庫的數據都可以進行云備份。
一些經典案例,這個采用一體機,他們的臨床和組學設計的設計倉庫,相應的分析解決方案,他們著重解決的是各種各樣的診療數據,包括傳統的病例數據、環境數據、其他的一些基因組學數據、環境安全數據等。