近日,一篇發表在《自然》子刊《自然機器智能》的論文指出,華盛頓大學的研究人員對人工智能(AI)檢測新冠病毒模型研究發現,這些模型存在不穩定性,可能會導致診斷失誤的現象。
關于誤診的原因,研究人員認為,主要是大部分模型只是依靠數據的分析和對于患者的胸片標注特征等數據,對患者是否感染新冠病毒進行判斷,而不是根據真正的醫學病理去診斷、分析。
論文題目為《用于射線照相COVID-19檢測的AI選擇信號上的捷徑方式 (AI for radiographic COVID-19 detection selects shortcuts over signal)》。
論文鏈接:https://www.nature.com/articles/s42256-021-00338-7
一、AI提高診療速度,但模型缺乏透明度
人工智能在醫療行業的應用,提升了醫療診斷的速度和準確率,同時也為患者贏得了最佳救治時間。從最開始的就診、個性化治療,再到手術的成功率預測,人工智能都將成為未來患者看病就醫過程中不可或缺的一部分。
正如華盛頓大學的研究人員發現的那樣,人工智能雖然可以降低醫生就診壓力,為患者看病提供便捷快速的方式。但如果將其部署在臨床環境中,那么這種利用人工智能帶來的“捷徑學習”方式(Shortcut learning)可能會導致出現診斷的失誤。
正在攻讀博士學位的論文作者Paul G博士指出:“醫生通常會從X射線的圖像中分析、總結疾病發展過程的特定模式。同時,這也是華盛頓大學,艾倫計算機科學與工程學院醫學研究方向學生需要學習的一種分析診斷方式。但這不是指依賴于捷徑學習的分析系統,因為它可能會導致錯誤診斷的出現。例如,捷徑學習的系統可能會因為患者是老年人,從而推斷他們患有某些疾病,而這僅僅是因為這種疾病在老年患者中比較常見。其實,使用這種‘捷徑’的診斷方式本身沒有錯,但它所診斷的結果準確率是無法保證的。”
研究團隊指出,這種捷徑學習目前還處于研發初期,還沒有成為一名權威的專業醫生,所以不會將其推廣。同時,團隊成員DeGrave說:“這種捷徑學習的模型只能用于開發它的醫院,如果把它應用到其它醫院時,將會出現診斷失誤的現象。”
這項捷徑學習的模型缺乏透明度,被專注于醫學和科學領域的研究人員們視為人工智能的“黑匣子”。具體而言,該模型在經過了海量數據的訓練之后,并沒有人知道它是如何推導出診斷結果的。
二、AI模型不穩定,二次測試準確性減半
最近,研究團隊把這個模型用于新冠病毒的識別上。但由于缺乏對新冠的訓練數據,這些模型容易出現一種被稱為“最壞情況混淆(worst-case confounding)”的診斷結果。它是指因為受到多種因素的干擾后,而產生的混淆判斷。這種情況表明模型相對于基本醫學病理,更加依賴于捷徑學習。
另一位來自艾倫學院的論文作者Joseph Janizek說:“人工智能只是進行數據識別判定分析,而不是真正的經過了疾病病理的學習。當所有新冠病毒陽性病例來自一個數據集,而所有陰性病例都來自另一個數據集時,就容易產生誤診的情況。雖然研究人員已經提出了一些相應的解決方案來減少誤診,但在樣本數據不夠全的情況下,這些方法的作用幾乎微乎其微。”
研究團隊對發表論文中的方法進行了實驗。首先,他們測試了模型的初始性能。然后,研究人員通過外部數據對模型進行了二次測試,而這些數據來自新的醫院系統。
雖然模型在首次測試時保持了高性能,但在第二次測試中,它們的準確性降低了一半。研究人員對其的解釋是這存在著一個“泛化差距(generalization gap)”,同時它也有利地證明了混淆因素是模型在初始數據測試上成功的原因。然后,研究團隊利用人工智能技術,生成對抗網絡和顯著性地圖,以明確哪些圖像特征在模型中的關鍵判定信息。
接著,研究人員根據第二次的外部數據對模型進行了訓練,其中包含了類似來源的陽性和陰性新冠病毒病例,因此它被認為不那么容易混淆。但即使如此,測試結果也顯示性能呈下降趨勢。
這些測試結果都與傳統認知不同,但當數據來源相似時,混淆結果就沒那么嚴重。實驗結果極大地表明了高性能醫療人工智能系統可以利用捷徑學習的模型來協同工作。
三、AI新冠檢測尚未臨床,日后擴大樣本是關鍵
“我們團隊很看好人工智能在醫學影像方面的臨床應用。我相信最終會有合理的方法來防止人工智能出現機械化的學習捷徑,雖然這還需要一些時間,但如果一旦成功,人工智能便可使這些模型能夠安全有效地,成為增強醫療決策并為患者預測治療結果的重要工具。”艾倫學院教授、資深作家Su-In Lee說。
DeGrave說:“這項研究發現人工智能會導致誤診,這很令人感到擔憂,但這項模型不太可能在臨床環境中廣泛部署,也是值得慶幸的。雖然有證據表明,一個名為‘COVID-Net’的錯誤模型已經在多家醫院部署,但目前還不清楚它是用于臨床還是僅用于研究。關于這些模型在哪以及它們是如何部署的,我們不得而知,但可以確定的是他們臨床應用率很低或不存在的。大多數時候,醫院都是通過測試PCR來診斷新冠病毒,而不是只依靠患者胸部的X光片。醫院有對患者有醫治的責任,所以他們不會輕易地相信那些未經測試的人工智能系統。”
研究團隊成員Janizek說:“這些人工智能的應用一定要經過多次反復檢測,確保沒有任何問題后,才能用于臨床使用,為患者的生命安全做保障。我們的發現表明,人工智能技術在醫療方面的應用必須嚴格按要求進行實驗測試,這一點非常重要。如果只是根據幾張X射線圖,就對其技術進行評判,那不具有代表性,必須通過大量的圖像數據,經過反復測試,才能看出可能存在的隱藏問題。為了利用人工智能更好地幫助研究人員規避新冠病毒模型中發現的一些陷阱,我們需要使用更大規模的樣本進行測試,優化模型系統。”
最后,研究團隊已經證明了其它人工智能在成像以外的一系列醫療應用中的價值,包括評估患者的手術成功幾率,以及針對不同患者對癌癥的治療情況分析等。
結語:智慧醫療,正成為人工智能時代重頭戲
從技術、醫生和患者的角度來看,智能醫療前景廣闊,或將成為未來發展的一大趨勢。但在其大規模普及化的前提下,研發人員必須克服人工智能機械化的捷徑學習模式、擴大實驗的樣本容量、完善模型架構等多重問題,保障人們的生命安全。
相信當這些問題都被解決之后,智能醫療將發揮其最大價值,緩解醫生就診壓力,提高患者就醫效率,做到患病治療快、準、好。
來源:智東西