來源丨中國食品藥品監管雜志
人工智能(artificial intelligence,AI)給醫療行業帶來了新的科研技術和新的應用場景,加速了醫學證據的挖掘,如利用人工智能技術加速醫學影像識別、疾病風險預測、藥物發現、基因測序分析等。與此同時,基于人工智能技術的應用(如軟件、系統、平臺等),也迫切需要有證可循、有據可依,逐步開展定量和定性評估,以實現合規監管。本文概述了人工智能在醫療行業的最新技術和熱門應用,著重對人工智能技術的應用評估和監管進行了探討,并對人工智能醫療健康產業的未來發展前景進行了展望。
人工智能;臨床試驗;循證醫學;真實世界研究;監管
人工智能與醫療行業的結合
人工智能(artificial intelligence,AI)一詞源于1956 年的達特茅斯會議[1]。隨后很快便與醫療行業結緣。1966 年,美國麻省理工學院(MIT)推出了最早的自然語言聊天機器人ELIZA,能夠模仿臨床治療中的心理醫生,與患者進行人機對話;1972 年,英國利茲大學研發的AAPHelp系統,能根據癥狀推斷可能產生患者腹部劇痛的原因;1974 年,美國匹茲堡大學研發的INTERNIST-I 系統,主要用于輔助診斷內科復雜疾病;1976 年,美國斯坦福大學研發的MYCIN 系統,用于自動判斷患者所感染的細菌類別并提供相應的抗生素處方建議。
盡管20 世紀80 年代,AI 遭遇寒冬;但在進入21 世紀以后,隨著算法、算力和大數據三要素齊聚,再次引爆AI 熱潮[2]。醫療作為最具挑戰的行業之一,正是AI技術和應用的制高點。從近幾年的文獻可以看出[3-5],幾乎每種疾病都有其結合AI技術和應用的文章發表,如常見的腫瘤、眼部疾病、皮膚疾病、糖尿病、腎病、心腦血管疾病、神經/ 精神相關疾病等。借助AI 加速挖掘這些醫學證據,主要來源于5 大類技術。
(1)計算機視覺(computer vision,CV)。卷積神經網絡(convolutional neural network,CNN) 在AI 醫學影像方面有出色表現,如在糖尿病性視網膜病變的AI 篩查[6]、皮膚癌/ 黑素瘤的AI診斷[7]、肺部電子計算機斷層掃描(CT)圖像的AI 識別[8]、基于腦部磁共振成像(MRI)的阿爾茨海默病AI 分類[9] 等方面應用。值得一提的是,CV 是此次AI 熱潮中的“弄潮兒”,AI 醫學影像也被行業內人士認為是最有可能率先實現商業化的AI 醫療領域[2]。
(2)自然語言處理(natural language processing,NLP)。如果說CV 是在近10年里縱向發展了各種不同的CNN 架構(從2012 年新鮮出爐不到10 層的AlexNet[10]到2015 年高達152 層的ResNet[11]),那么NLP 領域里最大的創新在于橫向提出了一套完整的方案去解決各種各樣的NLP任務,特別是2018 年提出的BERT[12] 模型在11 個NLP 任務上刷新了紀錄,可以做出問答、情感分析、命名實體識別、文檔聚類等任務。這些NLP 技術的發展無疑對富含文本數據的電子病歷(如病歷主訴、出院小結)帶來了新的價值,通過對醫療文本的分析和理解,可以構建疾病模型,以及提供AI 診療建議。
(3)序列數據分析(sequential data analysis)。以患者為中心的醫療數據是對患者全生命周期的記錄,因此從時間維度建模患者數據,無論是長達多年的電子病歷或醫保記錄,還是數天內在重癥監護室(ICU)里的多維指標采集,都可以借助序列數據分析來構建復雜模型。特別是循環神經網絡(recurrent neural network,RNN),通過學習前面時間步而預測下一步事件的概率,因此常被用于AI 風險預測,如對糖尿病患者的慢性腎病預測[13]、對再入院的預測[14] 等。此外,信號相關的流數據也是序列數據分析的對象,如分析心電圖(ECG)檢測心律失常及其分類[15],又如分析腦電圖(EEG)預測癲癇[16],以及通過可穿戴式設備獲取姿態、步態數據流來預測帕金森病嚴重程度[17] 等。
(4)圖神經網絡(graph neural network,GNN)。2019 年GNN 在各種AI 大會上刷榜,由此可見GNN 技術在近2 年的熱度非常高。GNN 里的“圖”,即為計算機科學“圖論”中稱為“圖”的數據結構,最簡單的形式化表示就是其由結點(node)和邊(edge)組成。在很多應用場景中,我們常常見到這樣的“圖”結構,如社交網絡(人是結點而社交關系是邊)、電子購物(用戶和商品是結點而購買關系是邊)。聚焦醫療行業里,AI 藥物研發正在擁抱GNN 新技術[18],如借助GNN 預測蛋白質- 蛋白質的相互作用、藥物- 藥物的相互作用,以及藥物- 靶標、藥物- 疾病、疾病- 蛋白質的相互作用,其中靶標是與某種疾病的發生和發展密切相關的生物分子(如蛋白質和核酸),對這種生物分子進行干預,能夠治愈或緩解與其相關的疾病。
(5)強化學習(reinforcement learning)。從2016 年阿爾法圍棋(AlphaGo)[19]以4 ∶ 1 的比分戰勝人類職業棋手,到2017 年AlphaGo Zero[20] 不再需要學習人類的棋譜,而是通過自我對弈提高棋力,其背后的深度強化學習算法備受業界關注。在醫療行業里,強化學習常被用于求解治療方案的最佳策略[21],其中目標函數是最大化預后的短期或長期效果。此外,考慮到這類技術在棋類和游戲類中應用效果明顯,而在醫療領域,更為接近的醫療場景當屬AI 醫護機器人。如機器人輔助手術[22](robotic-assisted surgery,RAS),通過感知環境狀態,學習外科醫生的動作和相應的獎賞函數,從而提供最優的策略,增強RAS 的魯棒性和適應性。
綜合上述AI 技術,在不同的落地場景中分別賦能AI 醫療重要的2P 角色(圖1):AI 醫學影像助力醫生、AI 診療賦能患者。同時,圍繞這2 個角色,深度挖掘2D 概念:AI 風險預測理解疾病、AI 藥物研發挖掘藥物。不難看出,現行相對成熟的AI 技術(如CV 和NLP)已經在不少應用場景中賦能予醫生和患者角色。而對于疾病和藥物,這些概念的研究本身就是亟待解決的科學論題,與之對應的AI 技術(序列數據分析和GNN)正分別在時間和空間上推出新算法。
AI 醫療的監管問題
AI 無疑給醫療行業帶來了新技術、新應用,同時我們也逐漸意識到,AI 為醫療行業帶來了新問題、新挑戰。尤其是當我們把AI 在醫療行業的應用視為一種特殊的干預手段時,我們是否應該建立系統的方法來評價和監管這些干預手段呢?這些AI 醫療技術和應用是否安全(safe)、有效(efficacy & effectiveness) 并值得信任(trustful)呢?類比于藥物,AI 醫療自身需要連續、長期且嚴格的研究,以產生科學有效的證據,這些證據可隨時間推移在不同人群中被驗證。不同于藥物,AI 醫療更需要與用戶(包括但不限于醫生和患者)互動,成為用戶可理解、可信任的干預手段,通過將AI 醫療集成到現有的臨床環境里,來收集和分析這些新證據。
本文首先通過循證醫學的證據金字塔來看現有AI 醫療技術和應用的循證等級;然后從臨床試驗質量管理規范角度,討論AI 醫療的臨床試驗在不同階段該如何設計和評估;最后解讀最新的用于規范AI 臨床試驗報告的兩大指南[《人工智能干預試驗標準方案的推薦條目》(Standard Protocol Items:Recommendations for Interventional Trials-Artificial Intelligence,SPIRIT-AI)[23] 和《人工智能試驗報告統一標準》(Consolidated Standards of Reporting Trials-Artificial Intelligence,CONSORT-AI )[24]],也是首個AI 臨床試驗國際標準。
(一) 循證醫學證據等級
循證醫學(evidence-based medicine)的證據金字塔的證據等級是自下向上逐漸升高(圖2)。其基本思想是從最基礎的證據出發,不斷地驗證、推論、強化,最終積累出可以定性的證據為臨床所依循。從這個角度來審視AI 醫療技術和應用,我們不難發現很多機構推出的AI 與醫生同臺PK[25],其證據等級僅等同于專家經驗。這往往是以新聞發表方式公布于世,但是這些并不是嚴謹的臨床研究結果。
通過對醫學期刊的搜索發現,有數百篇病例報告均對AI 醫療技術和應用進行過專業的描述和分析,包括在多例病例中使用[26]。同時,這些病例報告也指出了AI 醫療技術和應用的缺點,如AI 模型在實際應用中往往達不到純實驗環境里的高性能。考慮到AI 醫療技術和應用目前尚未大范圍使用,且鮮有回顧性病例對照研究結果。可以預見的是,我們將對某些特定疾病結局的改善,由果尋因來觀察并檢驗AI 的使用是否與之存在著統計學上的關聯。我們通過檢索和分析,驚喜地發現數十項前瞻性隊列研究[27],對于使用AI 的干預組和不使用AI 的對照組由因尋果,觀察驗證其是否在臨床結局上有差異。此外,有7 項隨機對照試驗[27] 正在開展,其中6 項來自中國。這些醫學證據逐步開始被系統評價[28],并進行薈萃分析[29]。
當然,我們也意識到現在絕大部分證據聚焦在AI 醫學影像的技術和應用。但是,我們相信并期待著基于循證醫學的方法論AI 和醫療的結合,以及各種技術和應用均將得到定性與定量的證據,最終被納入臨床實踐指南。
(二) 臨床試驗各個階段
《藥物臨床試驗質量管理規范》(Good Clinical Practice, GCP)[30] 指出:“臨床試驗,指以人體(患者或健康受試者)為對象的試驗,意在發現或驗證某種試驗藥物的臨床醫學、藥理學以及其他藥效學作用、不良反應,或者試驗藥物的吸收、分布、代謝和排泄,以確定藥物的療效與安全性的系統性試驗”。藥物臨床試驗分為Ⅰ ~ Ⅳ期,其中Ⅰ ~ Ⅲ期是上市前的臨床研究,而Ⅳ期是上市后的臨床研究。此外,還有臨床前研究和早期發現、發明階段研究(表1)。相比藥物研發的各個階段,AI 醫療的研發大多還停留在算法發現、發明和臨床前研究階段[31]。值得一提的是,AI 醫療大部分是數據驅動的學習算法,所以需要重點關注數據的因素,不能只停留在機器深度學習的算法層面指標(如AUC),需要更多地關注如實說明訓練時的數據質量問題(如數據缺失情況和數據異常情況等),以及訓練后的模型性能問題(如模型的可解釋性、偏差和漂移)。類比藥物說明書,一般包括以下內容:藥品名稱、成份、性狀、適應證或者功能主治、用法用量、不良反應、禁忌、注意事項、規格、有效期、批準文號和生產企業等。在可預見的未來,將有AI 醫療說明書,包含AI 技術應用的數據適用性、安全性、有效性這些重要科學評價和結論,用以指導臨床的正確使用。
此外,AI 醫療的目標是賦能用戶(其中用戶可以是醫生、患者、臨床研究者等),所以在復雜度高且響應度強的醫療行業,AI 醫療的技術和應用需要有專業的系統設計和量化評估。如互聯網公司常用A/B 測試對產品功能及內容的優化迭代,AI 醫療在評估用戶體驗和系統帶來的價值時,也可以借助這樣的方法,提高用戶滿意度。
(三) 臨床試驗指南規范
2020 年9 月《自然醫學》雜志推出了一系列文章,包括1 篇社論(editorial)呼吁對于AI 的使用制訂臨床試驗指南[32],1 篇專家評論(comment)建議規范基于AI 的臨床試驗[27],以及2 篇共識聲明(consensus statement)介紹了兩大指南SPIRIT-AI[23] 和CONSORT-AI[24], 用以規范AI 醫療的臨床試驗設計和匯報。其中,SPIRIT-AI 是《干預試驗標準方案的推薦條目》(Standard Protocol Items:Recommendations for Interventional Trials,SPIRIT)對于AI 模塊的擴展;CONSORTAI是《試驗報告統一標準》(Consolidated Standards of Reporting Trials, CONSORT)對于AI 模塊的擴展。簡而言之,如果臨床干預涉及AI 技術和應用,那么建議參考SPIRIT-AI,而相應的涉及統一標準建議參考CONSORT-AI。
具體而言,SPIRIT-AI 在現有的2013年版基礎上新增15 項,其中3 項是在原有清單上進行細化,另外12 項是在原有清單上進行擴展;CONSORT-AI 則在現有的2010 年版上新增14 項,這些新增項對于AI 干預的報告尤為重要。經比較后不難發現,CONSORT-AI 的14 項幾乎全在SPIRIT-AI 中,而SPIRIT-AI 僅多了1項對于AI 干預已有相關的臨床證據,需要在背景和原理章節中進行介紹和描述。本文對AI 新增項進行了解讀 [23-24](表2)。
AI 醫療的臨床試驗才剛剛起步,國內外產學研多方也在共同努力推進。除了科研機構引領并監管AI 醫療的臨床試驗,產品部門也需盡快落實這些指南新增項,以便在AI 醫療的臨床試驗過程中能更有效地進行數據收集、管理和分析。如IBMClinical Development[33] 提供的臨床試驗解決方案,正在探索及支持AI 醫療的臨床試驗。
2017 年國務院印發《新一代人工智能發展規劃》,該規劃提出了2020 年、2025 年、2030 年的戰略目標,醫療作為其中一個重要的應用領域受到了極高的重視。在這短短3 年里,人們已經驚喜地看到了很多AI 與醫療結合的試用和試點。2020 年,我們展望未來,產學研相結合,能夠更健康、更長遠地發展。讓AI 醫療在前進的道路上有望有證可循、有據可依。
來源丨中國食品藥品監管雜志
關于騰訊AI加速器
騰訊AI加速器是騰訊產業加速器的重要組成部分。其背靠騰訊產業生態投資,依托騰訊AI實驗室矩陣的核心技術,騰訊云的平臺、計算能力以及豐富的應用場景,為入選項目提供課程、技術、資金、生態、品牌等層面的扶持;并與入選項目共同打造行業解決方案,推動AI技術在產業中的應用落地。
AI加速器已經舉辦四期,過往三期在一年時間的加速中都取得了非常不錯的成績。騰訊AI加速器三期成員經過一年期加速奔跑,60%企業獲得新一輪融資,全員與騰訊達成多層次聯動,涉及50+產品及業務合作。在前兩期AI加速器中,從全球2000+項目中甄選出的65個項目,整體估值662億+,形成行業解決方案50+。
騰訊AI加速器四期自2019年9月啟動以來,吸引全球超1000家優質AI企業報名,復試首次舉辦騰訊產業加速器“AI+開放日”,助力企業鏈接更多合作商機。最終TOP40入選名單于2021年1月21日出爐,入圍率僅4%,聚焦垂直領域AI應用場景,覆蓋工業、企業服務、文旅、零售、醫療、政務、出行、農業等11大行業。騰訊AI加速器四期希望與優秀的AI企業一起,加速推進新基建在AI領域落地。