為了推進數據整合和信息共享、發展以數據為基礎的醫療健康服務體系,11月28日至29日,“2015中國醫療健康大數據峰會”在北京召開,此次會議圍繞“開放、變革、發展”的主題,邀請主管部門、科研機構、醫療機構、優秀企業、市場研究機構等領導與專家、高層及800余位行業精英參與,深入探討科學推進醫療健康大數據的應用和價值挖掘、推動醫療健康大數據依法有序開放、醫療健康大數據互聯互通、數據標準與安全等醫療健康大數據相關熱點議題,為我國醫療健康的數據的發展提供前瞻的思想與觀點,為研究制定促進健康醫療大數據應用的政策和戰略獻計獻策。
在28日下午舉辦的醫療健康大數據應用與創新論壇上,北京大學統計科學中心聯席會主任耿直教授作了題為《醫學大數據的復雜機制:因果推斷》的精彩演講,以下為演講實錄:
我今天的報告是針對醫學大數據的復雜機制,因果推斷。
首先,2013年美國要做醫學大數據。目的是要把數據轉換成知識,我們從數據怎么提煉出知識。這是美國國防部提出的計劃,大機制計劃。就是尋找在大數據中的為什么。目標是解釋驅動復雜系統的因和果,提出超越當代大數據分析的方法論。當代大數據的分析,或者說當代所用的統計方法,主要是建立在相關的基礎上,做相關性的問題。
因和果的模型是科學研究未來要探討的事情,我們給了一個例子,1854年倫敦的霍亂,就出了大數據。是一個地圖,上面有直方圖。這個教授有一個靈感,發現水泵是導致霍亂的原因。這個大計劃的機制里講,人類缺乏從關聯性跳躍到因果的靈感。目前的數據分析怎么然后因果的靈感,人在做一些數據分析的時候,容易傳統一些錯誤的靈感,人們產生正確的靈感,我們主要討論這個事情。
臺灣的健保資料庫,大陸也可以看到,他們訪問這樣的網頁。我和他們進行了交流,這是他們建的健保大數據數,醫院、醫師、處方。用不同的關鍵字連接起來,數據庫和數據庫的連接不行。要做一個頂層設計,建庫的時候要討論庫和庫之間用什么建去給它連起來,這時候才有真正的大數據,否則是一個孤島,這是臺灣的大數據。
后面是數據分析里注意的機制問題,什么時候可能會發生錯誤。第一個機制是數據的選擇機制。你的數據庫是什么樣的數據來的,應該怎么樣做分析。治療方面A,對一個疾病Y,看它有沒有效果。數據庫里你搜集的數據都是存活的嬰兒,你去治療A和疾病,是小兒天生心臟病的治療。即使它沒有效果,因為你是一個存活孩子的數據庫,所以你可能得到一個虛假的相關。因為這個存活的小孩有的是你做了隨機化,有的吃藥存活的,有的沒吃藥就存活。這兩類孩子做比較的時候,可能會產生一種偏移。你需要建立數據的選擇機制。
第二個是數據缺失機制。醫學數據里經常有一些缺失的數據,數據為什么缺失,你調查人工資的時候,工資越高越不告訴你。你能不能得到人群的工資收入分布,需要建立一種數據的缺失機制。在做醫學分析的時候,有些病人中途退出醫院,因為病治好了,有些退出是因為他知道治不好。你怎么分析療效,數據的缺失機制需要建立。
你做數據分析的時候會產生錯誤的知覺,Simpson悖論,我們知道混雜因素,因為有一個公共的原因忽略掉以后你可能得到虛假的相關。美國探討如何用大數據探討因果的關系,我們知道數據的機制是誰產生了誰。在做疾病,或病因、或療效評價的時候,要建立一種暴露機制。什么樣的人吸煙年齡大的吸煙,還是什么人吸煙,工作性質的吸煙。要建立一種吸煙的機制,才能分析出波爐的作用。這是第三個機制。
另外一種直覺,叫傳遞性的直覺,講到一本《致命的藥物》的一本書。為什么成千上萬的美國人死于最慘重的藥物災難,醫生有一個常識,心律失常促使的主要癥狀,心律市場就作為替代指標,醫學上叫做替代物。美國批準了三種藥,這三種藥不但不能預防猝死,還似更多人死于猝死,比越南戰爭死的人還多。治療可以使得心律正常,心律正常可以避免他猝死。但是這種治療可能使得更多人提早死亡。
治療和中間的S,就是替代物,Y是真正的終點指標,這是替代指標悖論的現象。
后面是Pearl有一篇論文,科學知識對政策的分析是有用還是沒用。我們知道吸煙有害,所以就宣傳大家不要吸煙、要禁煙。但是這種政策是不是可以降低肺癌這件事,也是不一定,吸煙可以導致更多人得肺癌,你宣傳大家不要吸煙,可以使更多人不吸煙。當然這種政策決策的時候,可能導致更多人得肺癌,知識對于決策怎么使用。
另一方面,醫學腦神經元調控結構。根據數據分析腦神經的調控,也在做工作。把每一個變量,每一個因素跨到因果上,腦神經元的調控網絡。怎么學習這樣一個網絡,可以用盲人摸象的方法。不同的數據庫,三個不同的數據庫,每一個數據庫都不完整,他們學的都是局部的知識,局部的知識可能都有錯誤。但是我們把三個有錯誤的東西合在一起,能不能得到一個正確的東西,通過局部學習的方法。三個不同的數據庫,可能學到三個不同的調控網絡,可能都有錯誤,如何把網絡合并起來得到一個網絡,這是做到的盲人摸象的方法。
調控網絡的時候有時候需要敲出一個基因,基因敲出在什么地方,把一個相關的關系變成一個因果的關系,綱舉目張的方法。
在做政策和決策的時候,Heckman得過諾貝爾獎。一是評價歷史上做過的相關干預政策。二是在一個環境中執行過的政策,如果換了一個環境,比如說北京的政策拿到上海,將會有什么樣的結果。三是最有挑戰性的,他說歷史上從來沒有過的干預政策,如果執行的話它將會產生什么樣的后果。這是認知的基本問題,經濟學家做,我們也會做到底會產生什么效果。
因果和相關之間的差別,這個地方描述的是肺癌的基因網絡。肺癌是紫顏色的,導致肺癌可能是吸煙,也可能是基因。得了肺癌以后,他可能會咳嗽,也可能會疲勞。這樣的網絡,如果用傳統的統計相關性的模型,逐步回歸,或其他的方法,選擇紫顏色Y的變量,其他的黃顏色全不進來。就用這些藍色的預測他得不得肺癌,這個做診斷可以。但是我要減少疾病的發生,做決策的時候要做一些干預政策。紅顏色的圈是干預的地方,我們也可以讓這個人變得很精神,給他吃人參。能不能減少對肺癌發病率,這是傳統相關性不能做。我們必須知道肺癌的原因是什么,它的結果是什么,我們做決策的時候要干預原因。
下面如何去區別原因,你給我一個目標變量以后,我怎么找到它的原因。公雞打鳴,太陽出來,這是相關人做的事情。怎么找到變量的原因是什么,變量的結果是什么。通過基因網絡,這個變量有很多X,我們找到誰是原因,誰是結果,我們提出尋找原因的方法。首先做傳統的變量建模,你先出兩個變量,一個X1,一個X2,你要順著X1找結果,把3選進來,但還不知道誰是因果。你拿X2做變量選擇、X3、X4、X5、X6做變量選擇。選到X6的時候你發現一個靈感,后面可能有X7、X8,你沒有靈感。5和6獨立,但是給了4以后5和6就不獨立,你就發現誰是因果。兩個獨立的原因在給定結果的時候,它會變得不獨立。一個人鬧肚子有兩個原因,一是吃了臟東西,二是著涼。給定這個人鬧肚子的情況下,他沒有吃臟東西就是著涼了。知道誰是因,誰是果,產生一種靈感。如果2是4的原因,當初2和6他就能發現是獨立的現象,但是當初沒有發現過,就確定4是2的原因。順藤摸瓜,我們就知道4是2的原因、3是2的原因,得出目標1、2是目標T的原因,而不是結果。在大數據里我們學會怎么找原因的時候,它是在數據庫里逐步展開的。人工智能加上數據挖掘的方法,自動搜尋數據里的數據庫,才發現誰是原因,誰是結果。大的網絡要尋找變量,18的原因是什么,結果是什么。一步步,最后看出原因是什么,它的結果是什么。
我們做過時間序列的基因的調試,44個時間序列,怎么把基因的調控網絡學出來。找了數據集,做了三個T細胞的,誰調控了它,它又調控了誰,這樣的局部網絡。這是我們曾經和協和做中風的,根據臨床實驗數據發現,哪些癥狀之間有這樣的網絡關系,一個中風癥狀的網絡關系。中醫藥開藥材不是一個個開,是一組組開。哪些藥材是一組組開的,和藥的關系,找到這樣的關系。
這是中醫的癥狀,腎陽虛癥狀,做聚類。每一個類里,怎么做癥狀之間因果的網絡,再去做因果的網絡。
介紹了幾種機制,你手上拿到的數據是怎么來的,一是數據有缺失,還有因果數據的機制,因果網絡的機制。