近年來,隨著醫療信息研究水平的不斷提升和醫療信息人才的多元化,針對醫療大數據的研究和智能模型的應用越來越廣泛,甚至許多研究成果已開始應用于臨床,在減輕醫務/管理人員工作負擔的同時,亦有助于減少醫院不良事件發生,為患者提供更精準、有效的診療服務。
醫療領域科學、嚴謹的特性決定人們對醫療大數據的準確性和可靠性具有非常嚴苛的要求,但大數據本身具有一定的欺騙性。Chan等在對精神疾病患者的生物標志物研究中發現,研究結果再現性差的主要原因是欺詐、不恰當的統計分析等。
Ranstam等研究發現,醫學研究中欺詐行為如偽造、篡改數據,欺騙性設計、分析等均為不可忽視的行為。除了大眾所熟知的“系統誤差”,還有數據陷阱以及因模型的脆弱性所帶來的風險。Goodfellow等認為,對于機器學習模型,數據集中一些小的干擾可能導致模型輸出錯誤的結果。
如何發現醫療大數據挖掘分析中的陷阱,并采取相應的策略來減少醫療大數據的欺騙性至關重要。
本文對醫療大數據的欺騙性原因進行梳理和總結,并從統計學角度闡述如何避免大數據陷阱,從模型角度分析模型被攻擊的應對策略以及模型可解釋性在醫療領域的重要性和方法。
1 醫療大數據的欺騙性相關概念
醫療大數據的欺騙性是指在醫療大數據研究中,因被動或主動干預造成研究結果不正確的現象。本文主要從數據的欺騙性和機器學習陷阱兩個方面概述。
數據的欺騙性是指用于醫療大數據研究的樣本數據在選取或處理時,由于處理不當而造成的偏差等;機器學習陷阱是指在醫療大數據的訓練過程中,因模型問題導致結果不準確或被攻擊。
圖1為醫療大數據研究基本方案及流程,數據的欺騙性和機器學習陷阱分別對應圖中①和②常見隱患,同時,步驟①分析結果也將直接影響特征工程效果。因此,對于醫療大數據相關研究來說,數據的欺騙性和機器學習陷阱在整個建模過程中均應盡量避免,以提高模型預測結果的可信度。
圖 1 醫療大數據研究過程
1.1 數據的欺騙性
由于數據在結論展現前需經過取樣、清洗、建模、分析以及應用等過程。Dallachiesa等提出通過數據清洗系統來減少“臟數據”,保障數據質量。Rahm等認為,數據處理工作對提高數據質量至關重要,并且其闡述了數據清洗、處理的方法。即使通過清洗等方法清除部分異常數據,從統計學角度來看,大數據仍具有欺騙性,主要分為選擇偏倚、結果的局限性和數據噪聲。
1.1.1 選擇偏倚
有一種錯誤認知是大數據至上,但實際上,數據集本身和數據分析并非完全客觀,在大數據采集和分析中會存在各種偏差。若過分相信大數據總能反映、揭示真理,則稱為“大數據自大”。Pauleen等提出應合理管理和使用大數據,若過度使用/濫用,將會導致一系列問題如金融危機。
典型的幾類造成數據偏差的原因包括:
第一,選擇誤差。如果選擇的數據樣本分布不均勻即會出現選擇誤差。例如,在機場做問卷調查,期望對全民健康水平進行評估,則注定是失敗的,因為機場人群的分布和全國人群分布不一致,不具有代表性,樣本選擇具有偏差。
第二,幸存者誤差。若有些樣本數據無法采集即會出現幸存者誤差。例如,為評估某藥物對患者的副作用,選取存活患者展開調查,因無法獲取藥物試驗中已故患者的數據,而這些患者可能是發生藥物副作用較多的人群。因此這樣的采樣并不全面,將導致分析結果不正確。
第三,數據真實性存疑。在研究中,參與者因個人利益等原因可能會出現一些欺騙行為,這會降低研究數據的質量。因此,應盡可能增大研究的數據量,減小錯誤數據對研究結果的干擾。
1.1.2 結果的局限性
結果的局限性是引起數據欺騙性的常見原因。無論是數據統計分析,還是訓練機器學習模型,均是在有限數據中進行局部歸納推理,并泛化至全局樣本空間中。可用如下公式來表示:Y=F(X)。
該過程可被描述為學習一個目標函數F,F能最好地將輸入變量X映射至輸出變量Y。其本質是試圖通過找到的變量相關性去論證因果關系。但由于因果變量相關性存在多種可能性,理論上來說,只要有超大樣本和多個變量進行足夠多次的建模,均可能找到各種看似合理的相關性,其完全符合統計方法,但采用這樣的相關性來論證因果關系具有不可信性。
比如,研究腫瘤患者入院等待時間與預后的關系,數據分析表明入院等待時間越長,患者預后越好;反之,預后越差。而實際原因是緊急入院患者通常病情更重,因而預后相對較差。患者入院等待時間與其預后本無關聯,但在數據上卻表現為相對一致。
Rohrer研究提出,數據具有相關性并不意味著有因果關系。如何判斷數據之間的關系是否為真正的因果關系呢?Simon提出通過引入其他變量、公式或參數來檢驗數據之間的相關性是否真實。
1.1.3 數據噪聲
噪聲數據是指存在錯誤或異常(偏離期望值)的數據,這些數據能干擾分析結果。在將統計學應用于大數據分析時,應提防數據噪聲以及數據背后邏輯和動機不透明所帶來的風險。
2008年,谷歌(Google) 公司領銜在Nature上發表論文,推出“谷歌流感趨勢”(Google Flu Trends)預測。其根據互聯網上有關流行性感冒的搜索數量和分布來估計各地區流行性感冒類疾病的患者數目,開發了具有較高準確性和實時性的預測系統。但2013年Butler指出,“谷歌流感趨勢”在2012年的預測結果比實際數據高了1倍多。經分析,是由于媒體對此段時間的美國流行性感冒類疾病作了渲染,使許多非流行性感冒患者也進行了相關搜索,從而干擾了“谷歌流感趨勢”的預測。在統計學中,這被稱為系統誤差,樣本數據量再大也無法避免。
1.2 機器學習陷阱
除了數據的欺騙性,在建模過程中也存在機器學習陷阱,導致試驗結果存在一定偏差,包括模型本身的缺陷、模型選擇不當和模型對抗性攻擊。
1.2.1 模型本身的缺陷
“黑天鵝”理論在大數據領域是熱門課題,其蘊含的邏輯是未知的小概率事件,一般無法預測,而其一旦發生將會產生巨大的影響。歸納和演繹是大數據挖掘常用的兩個基本手段,前者是從具體的事件中歸納出一般性規律,即從特殊到一般的泛化過程;后者是從基礎原理推演出具體的情況,即從一般到特殊的特化過程。大數據挖掘通常從有限的數據中進行局部歸納推理,并將結論推廣到全局樣本空間中。但這樣的歸納推理不僅脆弱且蘊含一定風險。
近年來,基于日積月累的個性化醫療信息數據,越來越多的研究開始致力于疾病的診斷預測,如Siuly 等提出計算機輔助診斷系統在神經系統疾病診斷方面的應用。但這樣的疾病預測模型很難預測到未知的新疾病,如嚴重急性呼吸綜合征(severe acute respiratory syndrome, SARS)、甲型H1N1流感、埃博拉病毒的暴發等“黑天鵝”事件。因此,模型認為小概率事件不會發生,顯然這樣的假設會導致完全依賴于大數據的決策存在風險。
1.2.2 模型選擇不當
在需要用機器學習來解決醫療大數據中的具體問題時,模型選擇至關重要。隨著機器學習理論和技術的快速發展,已有足夠多的模型可作為解決問題的工具。
按照主流的分類方法,其包括監督學習、無監督學習、半監督學習、強化學習、主動學習等,有監督學習可細分為線性模型、樹模型、深度模型等。實際應用時,需根據數據的形態、問題的類型、期望達到的目標來選擇適合的模型。
如果面對的問題不太明確或數據形態不常見,缺乏經驗的建模師在建模時很容易出現偏差,造成模型性能較差,無法達到預期。
例如,醫療臨床數據包含不同值域的數值變量、類別變量以及布爾變量,其比較適合用樹模型或深度模型,而非線性模型。另外,Doornik等研究顯示,模型選擇不當易產生一些虛假的數據關聯,且其闡述了如何進行模型選擇。
1.2.3 模型對抗性攻擊
像軟件系統有安全漏洞一樣,機器學習模型也存在漏洞,甚至更脆弱,在受到外部惡意攻擊時模型決策被干擾。“谷歌大腦”在2018年的研究表明,任何機器學習模型均可以被欺騙、攻擊,從而得出不正確的預測結果,且攻擊者幾乎可以讓模型輸出任何想要的結果。大部分模型攻擊方式是對抗性攻擊,即在正常樣本中加入一定的擾動來干擾模型。機器學習模型由一系列特定的參數計算和變量變換組成,這種變換對輸入的微小變化非常敏感,利用這種敏感性來修改甚至是控制模型是攻擊者常用的手段。
這是人工智能安全領域中一個重要的課題,特別是在醫療大數據領域,人們對機器學習的臨床應用一直持有謹慎保守的態度。保證模型的穩健性、避免其被攻擊尤其重要。
圖片來源:圖蟲創意
2 醫療大數據欺騙性應對策略探討
醫療大數據的欺騙性應對策略可從數據和模型兩個角度進行概述。
2.1 避免數據欺騙
2.1.1?確保取樣的代表性
從醫療大數據研究的流程上來看,首先應確保樣本選取具有代表性。理論上來講,大數據的特點之一是研究全體,而非抽樣數據,但在實際研究中很難獲得全部數據,而是需要基于能獲得的數據進行分析。
數據的欺騙性多與此有關,數據的樣本選取代表性差是制約模型性能的根本因素之一。依據機器學習的原始假設,高質量的訓練樣本應最接近真實樣本分布。
因此,為了讓模型達到最佳效果,在數據采樣時應保證采樣候選集的數據分布與真實樣本分布一致或盡可能接近。同時,采樣方法應保證客觀且隨機,以避免人為主觀因素導致的數據傾向。
2.1.2 尊重客觀邏輯
在規范數據樣本選取后,對數據進行探索性分析應注意尊重數據的客觀邏輯,保證數據分析的合理性。經驗欠缺的建模師在挖掘分析數據之間的規律時,往往會根據個人經驗假定兩個變量之間存在某種關聯,然后通過數據分析或模型去驗證。有時為了達到預期的結果,會給兩個無關變量強行建立某種關聯。因此,應尊重數據的客觀邏輯,避免強行加入個人主觀因素,如前文患者入院等待時間與預后的關系分析案例。
2.1.3 基于數據演化更新分析模型
經過規范的數據樣本選取和數據分析后,需注意如有數據演化情況應及時更新模型。數據是模型的根基,數據的演化可能會產生一些數據噪聲甚至使數據分布偏離訓練集原本的形態,對模型的預測性能產生極大影響。因此,在建模時需考慮數據未來的演化情況,提前作出判斷并修正方案。通常來說,存在數據演化的場景模型需定期重新訓練并更新。
2.2 防御模型被對抗性攻擊
2.2.1 對抗樣本檢測
對抗樣本即用于攻擊模型的不良數據,該部分數據不屬于正常樣本數據,目的是干擾模型的正常訓練或預測。對抗樣本檢測是指在模型訓練或預測前構造一個對抗樣本檢測器,對正常樣本和對抗樣本加以區分,并作相應處理。
Feinman等提出,通過深度神經網絡可有效區分對抗樣本和正常樣本,經受試者工作特征曲線驗證其曲線下面積可達0.8~0.93。
2.2.2 還原對抗樣本
對抗樣本一般是人為對原始樣本處理后的數據。對于對抗樣本,可通過對抗樣本檢測器加以識別,同時將對抗樣本還原為初始樣本,保障數據無誤。
2.2.3 增強模型
增加樣本量以保證模型訓練的穩健性。模型穩健性越好,對抗樣本對其產生的干擾越小。應用較多的方案是收集或構造更多的樣本,甚至將對抗樣本加入模型訓練,同時在模型中加入正則項以防止模型過擬合,即防止其訓練數據過于敏感,從而保證模型的穩健性。
2.3 保證模型可解釋性
對于機器學習模型,線性模型具有可解釋性,而非單棵的樹模型和深度學習模型不具有可解釋性。Lipton闡述了可解釋性模型的特點,并對不同模型的可解釋性作了對比分析。
Poursabzi-Sangdeh等通過對照試驗評估特征的數量和模型的透明度(是否為黑盒子)對模型可解釋性的影響。醫療大數據不同于其他行業,用于醫療大數據研究的機器學習模型需具有更強的可解釋性,以確保醫療安全。因此,在進行醫療大數據相關研究和應用時,應盡可能保證模型的可解釋性:
(1)特征主導模型預測。盡量找出在實際場景中特征的相互作用,以了解在建模過程中如何建設特征工程。
(2)模型可驗證。可通過曲線下面積、精確度等指標評估模型有效性,保證每一個特征的有效性均可被充分驗證。
3? 總結與展望
醫療大數據分析在提供精準、有效診療服務的同時,其也具有欺騙性。本文從數據的欺騙性和機器學習陷阱兩方面介紹了醫療大數據欺騙性的原因及分類,并從統計學角度和模型角度分析應對策略,以減少醫療大數據研究過程中可能造成的差錯。
醫療領域嚴謹的特性決定了其對數據的準確性、模型決策合理性要求極其嚴格,但現階段針對醫療大數據的欺騙性以及應對策略的研究尚缺乏深度,尤其針對模型對抗性攻擊方面的應對策略尚需深入研究,以保障醫療大數據應用的安全性。
來源:?協和醫學雜志