圍繞健康醫療大數據分析方法問題,系統梳理了健康醫療大數據在各個應用領域中的數據分析方法,從影響因素分析、流程管理、結果評價、預測判斷、決策預防5個層面對醫療服務、公共衛生、藥品管理、醫療保障、衛生管理、產業發展六大應用領域進行劃分,按照目標層、數據類型層、分析方法及工具層和應用層4個部分構建健康醫療大數據分析方法體系框架,并結合應用實例為健康醫療大數據應用發展提供參考依據。
健康醫療大數據是我國一項重要的基礎戰略資源,數據的爆炸式增長促進了健康醫療大數據分析和知識發現的研究。為合理有效地進行數據分析及應用,現急需建立一套完整的健康醫療大數據分析方法理論體系框架,如何將數據分析方法應用到實踐中已經成為健康醫療大數據分析研究中十分重要的問題。
健康醫療大數據分析方法體系框架
基于本課題調查分析各應用領域中所使用的典型算法進行歸納總結,結合項目實踐,現提出健康醫療大數據分析方法體系框架模型,由目標層、類型層、分析方法及工具層、應用層四部分組成,如圖1所示。
目標層,對健康醫療大數據進行目標性區分,根據數據的復雜程度和價值兩個維度,將目標層分成描述型分析、診斷型分析、預測型分析和指令型分析四個層面。
類型層是對數據類型進行劃分,包括定性數據和定量數據,并進一步細分,而后又可從線性、非線性以及結構化、非結構化四個方面進行數據類的分類。
分析方法及工具層分為三部分:①分析方法層,根據明確數據特征的健康醫療大數據選擇相應的分析方法類別,包括分類、回歸、聚類、關聯規則、神經網絡、Web數據挖掘、深度學習、集成算法等;②典型算法層,根據實際情況選擇具體的分析算法進行分析,包括決策樹、支持向量機等;③分析工具層,依據相應需求選擇適合的分析工具進行數據結果可視化展示,包括Excel、SPSS、SAS、BMDP等。該層是將數據與應用緊密結合的重要分析層。
應用層,根據健康醫療大數據的具體應用領域進行劃分,包括醫療服務、公共衛生、藥品管理、醫療保障、衛生管理、產業發展這六大層面。
圖1 健康醫療大數據分析方法體系框架
健康醫療大數據分析方法應用領域
通過湖北省衛生健康委課題《湖北省醫療健康大數據挖掘整合和服務管理規范研究》的調研發現,健康醫療大數據分析方法在醫療服務、公共衛生、藥品管理、醫療保障、衛生管理、產業發展等應用領域均發揮著重要作用。現根據項目調研情況將健康醫療大數據在各應用中的分析過程劃分成影響因素分析、流程管理、結果評價、預測判斷、決策預防五個部分,利用分類、回歸、聚類、關聯規則、神經網絡、Web數據挖掘、深度學習、集成算法等大數據分析方法,對不同應用領域的健康醫療大數據進行分析處理,健康醫療大數據分析方法應用領域如圖2所示。
圖2 健康醫療大數據分析方法應用領域
分析方法應用
明確健康醫療大數據分析應用領域和分析目標,將各種類型的數據處理成符合醫療衛生信息化標準的數據,采用分類、回歸、聚類等方法對不同的應用目標進行優選試驗樣本和數據,并通過決策樹、支持向量機等具體算法構建實驗模型,制定具體參數,對健康醫療大數據進行預定目標具體分析,采用Excel、SPSS、BI等分析工具,以統計圖、表等形式對分析結果進行可視化展示,進行數據多維分析和挖掘,對疾病發展趨勢、風險評估、預測分析和規劃等提供大數據依據和信息支撐。具體應用實例如下所示。
支持向量機(SVM)在高血壓中醫辯證中的應用健康醫療大數據之間存在錯綜復雜的非線性關系,支持向量機(SVM)模型具有較強的泛化能力,適用于小樣本分類及高維輸入單輸出的非線性回歸問題。使用SVM算法進行高血壓病辨證分析,根據符合高血壓病診斷的419例患者資料讀取數據集,以高血壓病中常見的21個癥狀、舌苔及舌體、脈象的量化數據為輸入進行特征設計,將高血壓病證型作為輸出,并進行歸一化處理,把屬性縮放到[0,1]之間。基于MATLAB環境,選取Libsvm支持向量機集成工具包,使用Python直接導入SVM模塊并選擇RBF核函數,使用419例樣本訓練,130例樣本測試。構造5個2類分類器,訓練得到最優參數C=2和γ=1,建立基于SVM的腎氣虧虛、痰瘀互結、肝火亢盛、陰虛陽亢和其他5種證型的高血壓病患者中醫證候診斷模型,并用測試集和交叉驗證集比較所建模型的診斷識別率。根據SVM模型測試與臨床診斷結果比較結果顯示,5種證型準確率均高于66%,除其他外的4種主要證型準確率均高于85%,總體準確率達到90%。說明基于SVM建模對高血壓病進行中醫證候診斷分析具有很高可行性,可以提高診斷準確性和及時性,在高血壓病中醫輔助辯證過程中具有良好的應用前景。SVM對訓練樣本的數目要求較低,在較小規模數據集上訓練即可得到較好泛化效果,且模型清晰,便于對分類結果做出解釋,但也存在一定局限性。一是對模型輸入特征設計要求較高,設計者需對所研究背景有深刻認識,當特征設計不充分時模型精度較低;二是可擴展性差,同一模型無法兼容多項研究數據,需針對不同需求設計不同特征。
Apriori算法分析慢阻肺患者超限住院費用影響因素Apriori算法使用頻繁項集的先驗知識,通過兩階段遞推的思想來挖掘出數據間的關聯規則。現使用Apriori算法研究慢性阻塞性肺疾病患者超限住院費用的影響因素,選取基本醫療保險數據庫中被確診為慢阻肺的9 199例患者資料信息進行基本統計學分析,對數據集的平均值和標準差進行計算,運用多元線性回歸方法篩選住院費用的外部影響因素。選擇在多元線性逐步回歸分析中有意義的性別、年齡、醫院級別、住院天數等影響因素作為規則前項,設置支持度為0.8%,置信度為50%,以提升度>1來衡量規則有效性。應用SPSS統計軟件進行回歸分析,采用Java代碼實現Apriori算法構建關聯規則模型,輸出每一步頻繁集結果,通過更換最小支持度和可信度閾值獲得不同關聯規則,并對關聯規則進行及時調整,將強關聯規則作為影響慢阻肺患者超限住院費用的主要因素,最終挖掘出4 條有意義的關聯規則。結果顯示,4條關聯規則的提升度均大于8.2,慢阻肺患者與超限住院費用關聯度較大的三個條件分別是住院天數、醫院級別和年齡,其中前兩者為可控因素,其中4條規則均包含住院天數,說明該因素對慢阻肺患者發生超限住院費用的影響最大。通過采取縮短住院天數,實施分級診療制度等有效措施,可以有效降低超限住院費用發生率,減輕慢阻肺患者的經濟負擔。Apriori算法采用逐層搜索壓縮頻繁集大小,簡單易懂,對數據要求低,且擴展性較好,可用于并行計算。但因其會多次掃描對數據庫,導致運算時間增加,I/O負荷很大,數據量大時更加顯著;同時會因循環產生大量組合候選項集,容易出現假性關聯。
結語
結合實際情況,構建健康醫療大數據分析方法體系框架,加強對健康醫療大數據的分析應用,分析健康醫療康大數據具體應用領域,結合分析方法實現數據價值最大化,充分發揮健康醫療大數據這一基礎性戰略性的資源作用,從而大力推進和發展健康醫療大數據分析應用工作。
【引用本文:章雨晨 陳敏.華中科技大學同濟醫學院醫藥衛生管理學院[J]. 中國數字醫學,2021,16(1)104-106.】