第四屆全國智慧醫療創新大賽由全國 20 多個協會學會相關單位聯合主辦,深化行業影響、提升賽事規模與深度,推進我國智慧醫療創新生態建設與發展。大賽以“賽事、展示、論壇”的模式,探索數據的開放共享和創新應用,進一步挖掘優秀項目,加速產業和人才雙發展。推動智慧醫療、數字技術與實體經濟深度融合,持續維進智慧醫療創新生態圈發展,為“健康中國”貢獻創新智慧,打造智慧醫療創新的“中國模式”。
項目名稱:醫療大數據平臺建設及手足口病并發呼吸衰竭預測模型應用研究
參賽單位:江西省兒童醫院
聯合參賽單位: 上海森億醫療科技有限公司、武漢瑞康永創科技發展有限公司
參賽人員:江西省兒童醫院
項目起源:1. 國家大數據和人工智能發展戰略;
2016年8月習近平總書記在 “全國衛生與健康大會”上發表重要講話‘沒有全民健康,就沒有全面小康’。要把人民健康放在優先發展的戰略地位,以普及健康生活、優化健康服務、完善健康保障、建設健康環境、發展健康產業為重點,加快推進健康中國建設,努力全方位、全周期保障人民健康,為實現‘兩個一百年’奮斗目標、實現中華民族偉大復興的中國夢打下堅實健康基礎。”同期,審議通過“健康中國2030”規劃綱要,要堅持以人民為中心的發展思想,堅持預防為主,推行健康文明的生活方式,營造綠色安全的健康環境,減少疾病發生。
2018年4月國家衛生健康委員會規劃與信息司組織國內相關單位專家和技術人員,在《醫院信息平臺應用功能指引》明確醫院信息化功能和《醫院信息化建設應用技術指引》明確醫院信息化技術的基礎上,研究制定了《全國醫院信息化建設標準與規范(試行)》,其中大數據治理對三級甲等醫院明確要求如下:以統一的數據標準對多源異構數據進行歸一化處理。(1)支持對數據標準的統一描述和存儲管理。(2)支持結構化和非結構化數據、集中式和分布式數據的統一建模。(3)支持大數據的清洗、校驗、脫敏等功能。(4)支持基于基礎存儲與計算平臺的集成能力,包括元數據管理、文件管理、檢索設計、實時采集、節點任務、流程任務、任務調度、運行監控等功能。在大數據利用層面,利用經過數據治理之后的數據中心的大數據資源,對醫療服務、科研管理、醫院治理等的輔助決策支撐應用。
2.醫療數據迫切需要挖掘利用;
目前不同系統和醫療科研機構之間的信息數據標準很難統一,這主要是由于設備生產廠商、軟件供應商之間技術標準不統一和醫療科研機構的研究方法各異造成的。因此大數據要在醫療信息領域得到應用,必須打破技術壁壘,解決信息標準化的問題。
目前,我院的信息系統都已經建設的比較完善,但缺乏醫療大數據治理、科研應用、分析的信息化支撐平臺,導致基于醫療數據驅動的臨床研究受限。另外對于國家三甲醫院的建設,科研有著舉足輕重的作用,科研能力亟待進一步突破提升并指導臨床決策,實現科研轉化。
3.手足口病發病較急,如果不及時采取有效進行治療,一旦引發心肌炎、腦膜炎、呼吸衰竭等嚴重并發癥,其死亡率高、預后較差。因此如果能通過人工智能有效預測手足口病可能出現的呼吸衰竭,并盡早干預,對于降低其死亡率,減輕傷殘等具有重要意義。
痛點、難點:醫療數據集成與應用痛點難點分析:
一、 數據種類多、系統多且異構,數據匯聚、集成難度大。
醫療數據包括結構化、非結構化、半結構化等類型的數據。數據的格式有文本、影像、心電、腦電、基因序列等。這些數據往往存在不同的業務及廠家的系統中,導致數據匯聚、集成難度大。
二、 數據質量不高
完整性:醫護人員日常工作繁忙,無法保證數據錄入完整,信息缺失嚴重。
規范性:醫院診斷、用藥等醫學術語存在不規范、未按統一標準錄入等問題
整合性:數據質控流程不完善,不同時期的系統的主索引不同,缺乏唯一識別號,導致患者信息匹配難。歷史數據存在錯值、不符合邏輯、無法關聯患者等問題。
三、 數據處理邏輯復雜,無法復用
由于沒有統一的數據開發平臺,各應用數據開發過程相互獨立,數據無法重用,抽取、清洗、處理過程需要重復開發,導致數據利用效率低,成本高。
四、 非結構化數據提取信息難
醫療數據存在大量非結構化數據,且這些數據具有非常大的價值,但是傳統數據挖掘技術難以分析。
五、 參與預測模型的變量多,判斷主要變量有一定的挑戰性。
由于疾病的發生的原因多變化快,且復雜,參與疾病預測變量多,如何確定主變量非常重要,需要信息人員與臨床醫技人員的溝通交流。
思路、方法:一、構建醫療大數據平臺,完成數據抽取、匯聚、治理、共享、機器學習應用開發,實現數據驅動智慧醫療。
(一)通過Kettle軟件實現構建基礎ETL平臺,規劃大數據平臺數據池,實現歷史與實時數據匯聚、集成。
(二)建立數據脫敏規范,加密存儲,開啟平臺軟硬件結合安全防護。
(三)建立數據質量核查、監控流程。
二、手足口病并發呼吸衰竭預測模型的建立
(一)數據提取:采用近十年手足口病患者20000余份病歷,200萬條結構化數據。
(二)特征篩選:從2000多診療特征中篩選出具有具體數值的28個主要特征。
(三)缺失值填補:采用隨機森林回歸填充特征缺失值。
(四)特征工程:采用Lasso回歸選擇權重系數較大的特征,減小模型復雜度。
(五)降維降噪:采用PCA方法對數據進行降維,去除數據噪聲,降低模型復雜度,提升準確性。
(六)數據平衡:采用smote過采樣方法使得正負樣本比例為1:1,解決數據的不均衡問。
(七)模型選取:對XGBoost、SVM、BPNN等多種分類模型進行評價、驗證后輸出最優模型。
(八)臨床應用:對手足口病患者的相關變量實時監測,及時預測呼吸衰竭風險概率,為臨床提供輔助決策。
創新點:一、建立了統一共享的數據處理平臺,自然語言處理提取非結構化數據;異構系統中數據進行歸一處理;建立患者主索引等方式對數據進行分層分域治理,實現集中處理。構建標簽集、指標集、應用寬表實現“一次處理多次使用” 的高效數據治理方案。
二、對新增數據采用多種核查手段,實現對新增數據的質量監控、預警。
三、研究并利用自然語言處理技術對非結構化數據進行提取、結構化。
四、智能統計分析采用了Pearson卡方、Pearson校正卡方、Fisher精確概率、Ridit分析、Wilcoxon秩和檢驗、Kruskal-Wallis H檢驗、線性回歸、非線性回歸、單因素方差分析、LSD檢驗、Bonferroni檢驗、Turkey檢驗、Shapiro-Wilk檢驗等35種統計方法,在具體針對某一個項目時,可根據數據來源自動選擇最合適的分析方法。
推廣及意義:一、探索醫療大數據平臺建設方法和理念,及相關技術的推廣應用。
二、為醫院臨床決策、科研提供高效數據支持,使數據由負擔變為驅動力。
三、構建多個專病庫,將病例數據進行高度結構化、規范化處理,實現科研流程管理支持臨床研究全過程的協同
四、手足口病并發呼吸衰竭預測模型的建立有效預測手足口病可能出現的呼吸衰竭,并盡早干預,對于降低其死亡率,具有重要意義。
第六屆全國智慧醫療創新大賽開啟報名
由移動醫療教育部中國移動聯合實驗室發起,全國 40 個省市相關協會學會、行業機構聯合主辦的“第六屆全國智慧醫療創新大賽”定于 9 月舉辦。旨在積極響應“健康中國”、“人才強國”戰略和“數字中國”政策規劃引導,發揮大賽創新導向作用,激發創新活力、增強創新意識、普及與推廣創新成果,積極構建“政產學研金服用”創新驅動服務平臺,實現醫療衛生數字技術創新重大突破,應用創新全球領先。