為了推進數據整合和信息共享、發展以數據為基礎的醫療健康服務體系,11月28日至29日,“2015中國醫療健康大數據峰會”在北京召開,此次會議圍繞“開放、變革、發展”的主題,邀請主管部門、科研機構、醫療機構、優秀企業、市場研究機構等領導與專家、高層及800余位行業精英參與,深入探討科學推進醫療健康大數據的應用和價值挖掘、推動醫療健康大數據依法有序開放、醫療健康大數據互聯互通、數據標準與安全等醫療健康大數據相關熱點議題,為我國醫療健康的數據的發展提供前瞻的思想與觀點,為研究制定促進健康醫療大數據應用的政策和戰略獻計獻策。
在28日下午舉辦的醫療健康大數據商業與價值論壇上,解放軍總醫院計算機室高級工程師余浩作了題為《臨床數據綜合應用平臺的研發》的精彩演講,以下為演講實錄:
各位專家、各位來賓:下午好!
其實我在醫院是一名做軟件開發的工程師,可能跟公司的程序員做的事情非常類似。
題目叫“臨床數據”,沒有大數據這個詞在里面,我想臨床數據肯定屬于醫療大數據當中基礎的重要部分。大數據的技術,肯定能在臨床數據處理當中,發揮重要的作用。
我會介紹三部分:項目的背景、目標和意義;目前基礎條件;系統建設情況。
首先,講一下項目背景。
301醫院從95年開始,信息化建設突飛猛進,數據到目前為止已經積累到很大的量。有這樣幾個數:目前患者的主索引數據積累到了20年這樣的規模,還包括用藥數據、檢驗數據、檢查報告、手術,也有15年左右,比較少的是門診病例部分,這是我們大概5年前開始建設的,所以這方面的數據少一些。
這些您我們對這些數據一直在采用,但用的不是很方便,一個臨床醫生要做回顧這些數據的過程很煩瑣。醫生要做一個研究的話,要提一個方案,比如我要研究某一類診斷的治療情況,首先我要去醫院管理科,拿著這個病人的信息,到信息科把數據調出來,然后才能進行后續的數據整理,非常麻煩。
其中有兩類數據,屬于目前處理相對來說不像數據庫那么簡單的,就是這種半結構化和非結構化數據,主要是指病例和檢察報告,我們到2014年為止,積累電子版的住院病例是130萬份,檢查報告是800萬份。
臨床數據的挖掘,可為醫療、保健、研究、管理提供有效的資源,現在也是研究的熱點。
我們的目標是構建醫療數據綜合利用平臺,實現臨床數據搜索、電子病例瀏覽、臨床決策支持、科學研究支持、對外信息共享等數據應翁,為進一步的挖掘打下扎實基礎。
研究的意義:
一是挖掘臨床數據二次利用的價值。
二是提供臨床科研高效的檢索手段。
三是提高科研數據服務效率與質量。
四是為醫院精細化管理提供決策支持。
五是建立結果可追溯的CRF管理數據庫。
二、我們目前所具有的基本條件。
我們的系統醫療訛誤全覆蓋、全集成。包括我們的病例、手術等數據都做了統一的集成。
最終以電子病例進行數據的大集中。現在301醫院的日門診量平均達到15000人,高峰的時候已經突破了20000人。
目前我們有的數據有70種,每天大概處理130000個檢驗標本,產生大概15萬條的結果。病例,每天處理150萬份病例標本。??60余臺設備接入系統當中,每天做1200例的檢查。心電圖每天大概600例,超聲1500例,每天處理25000條醫囑。
除了業務系統的數據,還存在大量的中間數據,包括手術狀態,自助機操作過程的數據和取藥報到的數據。
三、講一下我們系統的建設情況。
我們會收集數據形成一個檢索平臺的通用數據庫,在這個檢索平臺之上,根據檢索條件,得到結果,支持對數據的下載。
后續,拿到這些數據以后,也可以在我們平臺上做抽取,方便后續的科研活動。
技術路徑:首先是建立全病種的臨床數據庫,在此基礎上開發臨床數據的檢索門戶,緊接著是做CRF數據項抽取平臺與輔助功能,最后開發專科化數據管理與分析工具。
有這樣幾個關鍵的各個要進行研究:一個是專科信息的可視化,然后是瀏覽病例的檢索門戶,支持關健詞全文結構化的檢索,以及比較復雜檢索方案的自定義,同時對檢索關健詞的熱點我們會進行趨勢分析。
下面是CRF數據項的抽取工具,臨床數據應用當中,CRF表非常重要,獲取數據的時候新定制,醫生過去做這項工作的時候都是單打獨斗,沒有一個系統工具支撐,但CRF管理系統非常重要,方便數據和臨床數據對應。
同時,對病例做CRF數據項的抽取,也可以為后來者所用,每個研究者對病例文檔做的CRF數據項抽取,相當從中抽取一個支持點。
再就是在線臨床數據的分析工具,包括常規的一些聚類分析、相關分析、回歸分析、因子權重分析、異常偵測分析。
目前,我們已經研發出來正在適用的系統:第一個是醫療文檔的搜索引擎,像國內的百度,像以前國外的Google學術,大家可能都用過,比較方便,用一個關健詞我就可以很方便的找到我所需要的資料。
其實,這個需求醫生也非常迫切。很早的時候,我記得Google剛來中國的時候,有醫生說能不能做這樣的工具?簡單的給個關健詞能找到我所需要的文件?其實是可以的。
醫療文檔搜索是臨床數據綜合應用平臺的關鍵子任務,基于關健詞的檢索方式,類似Google、百度的搜索方式。倒排序索引,處理非結構化及半結構化數據,主要面向病例文件和檢查報告。解決病例文件不能方便檢索的問題。
這是整個醫療文檔搜索引擎工作的過程,其方案處理流程跟市面上的搜索引擎是一致的,沒有什么特別的東西。這是病例文檔報告,首先把內容以文本的形式生成出來,對文本建索引,在此基礎上做匹配。
目前,采用的是通用的中文分詞方法,下一階段會引入基于中文醫用辭典分詞的方法。目前還是關健詞的匹配,但下一步我們想跟大學,或者跟國內有實力的公司合作,做這種基于語義匹配的搜索。
這是我們的一個界面,給出一個關健詞,就可以檢索到含有這個關健詞的病例文檔,目前已經對近十年的病例文檔建立了索引信息,能夠查近十年內的病例文件。
這是對我們檢索到的病例進行的具體瀏覽,可以對于關健詞進行標注。大家看到三個文件不一樣,這是因為醫院從95年到現在采用了三種不同的文件編輯器,所以顯示出了三種不同的文件格式。
另外,對檢索到的檢測報告進行瀏覽。然后我們把圖用文字做了一個集成,一旦檢索到了符合研究內容的檢查報告之后,可以實時在PAX當中轉成文件,然后顯示出來,就是這樣的流程。
另外,對檢驗結果進行查詢,以前檢驗結果一般都在數據庫當中,但給醫生用非常不方便,我們做了一個簡單的小工具,方便醫生檢索,很方便的能找到他想要的數據。Excel里的工作表的形式,便于醫生統計和分析。
我的內容就是這些,謝謝!