• 首頁 > 觀點 > 專訪 | 醫渡云首席AI科學家閆峻:醫療大數據技術如何重新認知現代醫學?

    專訪 | 醫渡云首席AI科學家閆峻:醫療大數據技術如何重新認知現代醫學?

    2021-02-02 觀點 Eli

    專訪 | 醫渡云首席AI科學家閆峻:醫療大數據技術如何重新認知現代醫學?-智醫療網

    文 | 海若鏡

    文章來源| 財健道

    1月15日,醫療大數據和AI技術企業醫渡科技(2158.HK)登陸港股,上市當日收報65.20港元/股,較發行價上漲近148%,市值達到588億港元。醫渡云(即醫渡科技)在資本市場的表現,也為醫療AI行業注入一劑強心針。

    在醫療AI行業,高質量的數據、算法、算力是企業競爭力的核心,對于醫渡云而言,憑借數據智能基礎設施YiduCore,為醫院、監管機構、藥企等多方提供大數據解決方案支持,截至2020年3月31日止財年營收達5.58億元,同比增速達447.1%。

    醫渡科技上市敲鑼儀式現場,醫渡云首席AI科學家閆峻博士接受了《財經》專訪,從技術層面深度解析如何通過數據治理技術積累、算法創新等,逐步構筑起醫渡云的護城河。閆峻博士畢業于北京大學數學學院信息科學系,曾任微軟亞洲研究院資深研究經理、微軟北京大學聯合實驗室副主任等職位,在醫療AI領域深耕多年。

      專訪 | 醫渡云首席AI科學家閆峻:醫療大數據技術如何重新認知現代醫學?-智醫療網

      ▲ 1月15日IPO儀式之后,閆峻接受《財經》專訪

    01

    正向迭代的YiduCore,構筑數據治理護城河

    《財經》:醫渡云治理的醫療數據,其服務對象都有哪些?主要是治理何種類型的數據?

    閆峻:主要服務于醫療機構、監管機構。醫渡云幫助他們進行數據的加工、處理、計算,支持醫療機構的科研、臨床輔助決策、院內管理等多種場景。

    數據類型以文本為主,因為醫院會用到HIS(HospitalInformation System, 醫院信息系統)、LIS(Laboratory Information Management System,實驗室信息管理系統)、手術麻醉臨床信息系統等,主要還是處理這幾類信息系統的文本數據。

    《財經》:中國的醫療信息化已進行了十多年,HIS、LIS系統等已普及。目前醫療大數據治理的難點主要在哪些方面?

    閆峻:信息化不等于數據化。雖然醫療的信息化已經做了很多年,但以前的信息化建設以“記錄”為主,醫生的臨床判斷、檢測檢驗等都會記錄下來,但它并不面向應用、科研,無法直接用這些記錄構建面向AI的智能模型。

    所以需要做“翻譯”工作:通過醫療數據的集成、基于知識的數據質量治理、再到數據的結構化、數據的標準化,通過這樣的鏈條把信息化時代記錄的內容翻譯成機器可計算的、數據化的東西。

    各環節拆解來看,首先要進行數據集成。醫院在進行信息化建設時,通常先上線一個子系統、過幾年再上一個,每一類信息系統又有很多供應商。所以,一家醫院內部可能存在過幾十個系統,且彼此間沒有打通。這意味著想看一位病人完整的病例數據都很困難。所以先要把數據集成起來,才能相對全景化地看到一份病歷。

    第二,需進行數據質量治理。醫療數據大多是人工記錄,難免因各種原因產生錯誤和偏差,有一些還很嚴重,比如,“月經史8年,男”。在構建臨床輔助決策系統時,如果數據本身是錯誤的,相當于誤導了機器,反饋的結果就可能失真。如何通過AI建立數據質量治理的解決方案?

    所以我們要建立規則體系,類似專家系統,通過知識推理發現存在錯誤的數據。這個系統的構建,背后需要非常強大的醫學知識庫。當加工處理的數據越多,越“見多識廣”,就越能清晰地知道病例中可能出現的問題,然后輸出為計算機可識別的模型,再讓機器發現其中的問題。

    下一步是數據結構化。把醫生記錄的內容,翻譯成計算機可以讀懂的結構化的數據表單。

    最后還需要進行數據標準化。因為即便面對同一個表單,醫生的表述習慣也不同,比如二型糖尿病,有的醫生寫阿拉伯數字“2”,有的用羅馬數字“II”,有的寫英文“type 2”。人看了知道是同一件事,但計算機識別的是符號,因此還需要用語義分析把它們關聯在一起,清晰地說明描述的是一件事。

    這項工作最大的難點不是構建一個強大的AI模型,而是需要大量的積累和投入。醫渡云2014年成立,做第一家醫院時花了一年的時間、很高的成本,公司在2017年前沒有進行商業化,而是在解決行業的基礎性難題。

    《財經》:醫療大數據行業里,各家的路徑會比較相似么?在這個過程中醫渡云的核心技術能力體現在哪些方面?

    閆峻:行業里每家企業都有自己的特點,定位和目標也不太一樣,我們現在追求的目標是:要解決醫療的數據化到智能化進程中最基礎的這一步。因為如果用現成的數據訓練AI模型,再用這個模型去構建應用場景,那這件事情反而不需要太重的投入。

    醫渡云在做的相當于行業基礎設施的建設,它需要非常長期的積累,無論是數據質控的知識庫建設,還是結構化、標準化模型,實際執行時并不簡單。

    舉一個醫療數據結構化的例子,通常意義上,自然語言處理有非常標準的算法,叫做NER算法,它主要的功能是從文本里面識別實體,比如定義癥狀叫一類實體,它就幫你識別癥狀;定義診斷為一類實體,它就可以識別診斷。

    但醫療行業比較復雜。比如做腫瘤的臨床研究,腫瘤分期非常重要,我們天然認為醫生會寫在病歷文本里,機器只需識別即可。但實際上你用盡了一切手段,即使識別率、準確率、召回率都是100%,最后比較高的數據填充率也只有50%-60%,為什么?

    原來大部分情況下,醫生基于檢查檢驗指標、病理結構可以輕易判斷出腫瘤的分期,所以并不習慣在病歷中直接標注,而對AI來說,沒有這個數據,就意味著無論用什么算法,都不可能識別。

    如何解決這類問題?其實有一整套非常嚴謹的醫學邏輯,一方面要從病歷里識別各類指標,另一方面要建立一個醫學推理引擎,通過推理得出這份病例的分期。所以看似是一個簡單的機器學習算法問題,實際上要嵌入大量的醫學邏輯,所以我們研發團隊中醫學人員比例很高,跟醫學團隊的配合非常緊密。

    醫渡云較大的優勢就是我們對整個算法的創新、對問題的定義,很多情況下把問題定義清楚格外重要。接下來就是我們在積累的過程中,花了很多時間和資源構建知識體系,而后算法逐步迭代,使得YiduCore處理數據的能力越來越強,也就有更多合作伙伴委托醫渡云加工處理數據,形成正向循環。

    所以我們一直說,YiduCore是一個迭代的過程。

    02

    算法創新,重新定義知識圖譜

    《財經》:你曾提到醫渡云的技術方案跟業內機器學習、深度學習的模型不太一樣,是“以知識圖譜、邏輯知識庫為主,嵌入智能驅動”,這該怎么理解呢?

    閆峻:這是一個技術專業性非常強的問題,可以從兩個方向來看,一是AI技術的發展脈絡,二是醫療健康產業的特殊性。

    首先看AI發展的進程,早期的AI是以數理邏輯為基礎,就是符號系統,或者叫專家系統。它通過一系列的符號邏輯的推理,比如有A且有B,或有C,這幾個條件下可以推理出一個怎樣的結論。條件描述可能很復雜,但它可以做機器定理證明、輔助決策支持等很多事情,這是早期的符號邏輯。

    符號邏輯通常不是數據驅動,而是知識驅動,把專家的知識描述成符號,翻譯成機器可以處理的文本,機器就可以通過符號邏輯進行運算。

    后來隨著數據技術、統計學算法算力的發展,大家開始發現數據不需要人來定義,而是可以讓機器通過數據學習這個規律,這就是統計機器學習。隨著算法、算力局限性逐漸被突破,近期深度學習發展了起來,也是目前市場上最熱門的策略。

    這是AI從符號邏輯到統計機器學習的脈絡,結合醫療健康產業來看,還有兩個重要特性。

    第一,相比于整個醫學發展的千百年歷史,醫療信息化積累的時間很短,僅有這十多年的系統信息數據。如果今天的醫療AI是100%依賴于數據,會有大量珍貴的歷史醫學知識用不上;如果單純走符號邏輯拆解,今天的數據就又用不上,所以必須把兩者融合起來。

    第二,在醫療領域,對結果的可解釋性要求非常高。比如在臨床輔助系統幫助醫生判斷病情、推薦診療方法時,僅告訴醫生該病人得各種疾病的概率值是不夠的,從循證醫學角度,系統必須告訴醫生原因。單純的機器學習模型,可以輸出結論,但無法告知原因。所以最近延伸出來比較熱的研究方向,叫做可解釋機器學習——希望我的機器學習能夠解釋。

    醫渡云現在構建的整個體系是以符號邏輯為基礎,把歷史醫學知識拆解好,變成一個大的知識圖譜。數據在其中的目標是,把圖譜里所有的東西變成一個可個性化解決的場景問題,這才能滿足精準醫療的需求。

    傳統的知識圖譜中,構建的實體和實體之間,會有一條邊。舉個例子,二型糖尿病、糖尿病足,之間的“邊”叫做并發癥,意味著糖尿病可能有一個并發癥叫糖尿病足。單純基于知識圖譜的臨床輔助決策系統會提示醫生,他有可能得糖尿病足,給出的概率預測也是基于人群,而非個體。

    但在精準醫療的范疇里,該如何解決這個問題?我們把知識圖譜中的每一個節點的常量(一個確定的符號),變成一個預測模型。比如以前“糖尿病足”是一個確定性的符號,現在它成為一個變量,病史、生活習慣等指標則是影響變量的因素。

    預測模型從哪兒來?就是從構建的深度學習模型來預測。相當于通過千百年的醫學知識沉淀,先構建出整體的邏輯架構,基于此,再把通過數據學到的規律逐步嵌入到知識圖譜中,讓每一個節點之間都是可預測的模型關系。

    03

    產品創新,助力新冠疫情防控

    《財經》:在新冠疫情防控中,醫渡云有哪些產品助力提升疫情防控的效率和質量?

    閆峻:一個是城市免疫平臺,其實也是用到上述技術。我們知道疫情發生后,都需要做流行病學調查,流調報告跟醫療的文本非常像,也是人記錄下來的內容。如果靠人工去分析數百份流調報告之間的傳播鏈路,是非常困難的。

    我們通過機器把所有行程軌跡里的時間、地點識別出來,并進行人工校驗,之后通過AI系統就可以推算出整個鏈路的交集、最可能的傳播路徑是什么。

    另外還有通過仿真模型,助力政府進行防疫政策。如果疫情防控舉措過于嚴格,雖可以控制好疫情,但也會給生產生活帶來巨大負面影響;反之,經濟可以快速回歸正軌,但對國民健康和安全又存在風險。所以,通過仿真模型跟蹤疫情動態、監控醫療資源、還原傳染路徑等,能有助于疫情防控的動態平衡。

    整體而言,從疫情監測預警、模擬仿真、輔助研判,到最后的疫情防控執行追蹤,整個鏈路醫渡云有一套完整的解決方案。現在,我們還有小伙伴奮斗在河北戰疫的一線。

    (作者系《財經》研究員)

    編輯|戚萬琪

    排版|Mia

      專訪 | 醫渡云首席AI科學家閆峻:醫療大數據技術如何重新認知現代醫學?-智醫療網

      專訪 | 醫渡云首席AI科學家閆峻:醫療大數據技術如何重新認知現代醫學?-智醫療網

      專訪 | 醫渡云首席AI科學家閆峻:醫療大數據技術如何重新認知現代醫學?-智醫療網

      本文所載信息來源于公開資料或訪談,思宇醫械觀察不保證其準確性與完整性。本文所載信息、材料或分析只提供給收件人作參考之用,不是或不應被出售、購買或認購證券及其他金融工具的要約或要約邀請。 收件人不應單純依靠此文而取代個人的獨立判斷。思宇醫械觀察及其雇員對因使用本文及其內容而引致的損失不負任何責任。

    發表評論

  • 野花视频