為了推進數據整合和信息共享、發展以數據為基礎的醫療健康服務體系,11月28日至29日,“2015中國醫療健康大數據峰會”在北京召開,此次會議圍繞“開放、變革、發展”的主題,邀請主管部門、科研機構、醫療機構、優秀企業、市場研究機構等領導與專家、高層及800余位行業精英參與,深入探討科學推進醫療健康大數據的應用和價值挖掘、推動醫療健康大數據依法有序開放、醫療健康大數據互聯互通、數據標準與安全等醫療健康大數據相關熱點議題,為我國醫療健康的數據的發展提供前瞻的思想與觀點,為研究制定促進健康醫療大數據應用的政策和戰略獻計獻策。
在29日上午舉辦的醫療健康大數據建設論壇上,國家心血管病中心醫學研究統計中心李衛主任作了《大數據對統計學的挑戰和機遇》精彩演講,以下為演講實錄:
前面講者講了自己醫院怎么實現大數據的,我下面從另一個維度講一下大數據帶來統計學的挑戰和機遇。
我們是國家心血管醫學研究統計中心,過去是抽樣做統計,拿一個樣本代替。現在出現了大數據,特別是剛才幾位專家談到的都是醫院內部的信息整合。更大范圍的大數據是不同范圍之間,像我們醫保系統,不同省市的醫保系統整合,帶來的困難可想而知更大了。
首先,什么叫大數據。我們說大數據是信息時代的產物,人們對客觀世界和人類活動記錄和掃描的一個結果,是應信息時代發展提出的一個新概念。大數據的內容無所不包,包括聲音、圖像、影像,還有影像科室。我不太清楚剛才院長談的影像圖像是不是也都變成標準化,都看到了,那個工作量是非常大、非常難的。還有數字、語言、文字等等。我們通過記錄和掃描的手段,以及工具不斷升級,不斷信息化,我們大數據的數量也是與時俱進的。同時我們說大是相對的,而且是發展的。我們醫院內部的數據好整合,但是整個社會的數據,整個醫療數據我們整合怎么來做,這個是非常難的及
像盲人摸象一樣,這幾個瞎子摸象,每一個都說我摸到了,實際上代表的還是局部。大數據的特點不僅僅是數據量的大,醫院有多少數據,實際上包括了各個維度。一般包括四個,數據量大、多樣性、快速、準確。只有不同的地區數據合在一起,格式、結構不一樣,我們怎么分析帶給我們新的問題。由于它具有了這樣的維度,所以大數據的價值是非常大的。是多維度的,構成了大數據的特點。
隨著全球定位系統,GPS、傳感器、互聯網等各種技術的發展,大數據已經真真實實來到了我們身邊。很多以前很難收集到的數據現在可以很快、很方便地、大規模地進行收集。云計算使得我們大數據的處理方式成為了可能,可以直接處理海量的數據。但是這樣的一個現況給目前的統計方法帶來了一個新的挑戰。
傳統的統計學的特征,傳統的統計學理論和方面都是基于樣本產生的,因為它受到了收集處理數據的工具和能力的限制。像新的降壓藥,最新的高血壓的患病率,在我國大概是去年,我們最新的預測結果將近3醫。任何一項臨床研究,不可能把3億人都叫過來,我們沒法采集這樣的數據,收集整體數據成本太大。通常我們以隨機抽樣,整個的3億高血壓病人人中抽幾個樣本,然后看藥有效沒校,只要具有統計學的意義,藥是可以上市的,將來在真正臨床實踐中可以受益整個人群目標。都是基于樣本產生這樣的假設,引證這樣的假設。這樣的情況下,我們繼承最優的抽樣和統計分析方法,我們抽到的樣本也是最大限度地代表整體某一個方面,就是冰山上只看到一角,下面完全看不到,被水擋住了。所以你抽樣方法的準確度就非常重要,我們發國際GSI高水平文件的時候,編輯提的最多的問題就是樣本和代表代表性。
大數據對大數據的挑戰,大樣本標準的調整,選取標準和形式的確定,統計軟件有待升級,實質方法統計的大數據化。軟化樣本量大于30%就認為是大樣本,我們做假設檢驗的時候,樣本量超過30%,很多情況下就不做檢驗。就因為我們認為是大樣本,大樣本情況下理論上就應該服從,就可以用均數標準描述,現在這種海量的數據要重新定義大樣本。同時面對存在多元易構,結構也不一樣,病例系統和His系統是完全不同的。再一個是高噪聲的大數據,來源不同,數據質量肯定不一樣。這樣的東西,標準就顯得太低了。統計學應加強數據來源多樣化,擴大樣本規模,更新大樣本的標準。
樣本標準和形式的重新確定。傳統的統計學依賴于結構化的數據,項數字、符號,但是大樣本85%的數據都不是結構化的數據,特別是圖像、音頻和視頻。還有半結構化的信息,文檔不是完全結構化的。海蘊藏海量信息,有標準數據在里面。將非結構化的數據轉化成結構化的數據,從而才能發揮多元化數據的作用。
統計軟件也有待于升級和開發。傳統的統計分析軟件數據處理和統計分析都以數學模型為基礎,統計模型構建了不同的數量關系。統計軟件正式和統計分析的數據,但是得依靠自有導入收集的數據,一些軟件大家都比較熟悉,這是專業軟件。但是大數據不僅僅依賴于這些數據,必須以數據為中心的非關系結構進行分析。這個軟件都是比較新的,像谷歌,都不是用我們常用的統計分析軟件。統計學常用的分析軟件要仿照大數據處理,我們必須首先增加數據的存儲。一個SaaS軟件最多10萬太介入,再多就沒法轉。
實質性的統計分析方法大數據化,大數據對傳統的統計學的沖擊不僅僅在于統計樣本和統計軟件,甚至有可能產生新的統計方法。最初的統計方法是基于樣本的,它有假設、驗證假設。現在不需要假設,所有數據都收集來,你知道保證質量、規格、客觀一致性,已經不需要分析推論。它帶來的問題是怎么樣建立統一數據中心,用大數據的方法統計調查,冰山一角要能代表整個冰山。現在收集的數據敢不敢說就是我們研究的目標人群總體,這是更重要的。
有這么多的挑戰也就給統計帶來很多的機遇。統計質量的提高,統計成騰下降,統計學作用領域的擴大,統計學學科體系的延伸,統計地位的提升。
一是如何利用大大數據,一是時效性增強,二是誤差減小,還有可信度的增強。無論是普查,起來抽樣調查,傳統的方法是常規的方法。隨著數據規模的增加,統計成本也會大大增加,像人口普查不我們說在大數據時代,很多數據都可以通過網絡、移動通信。溫州醫學院就是通過網絡,人員還減少了,利潤還增加了。無論從時間,還是實際消耗的財力物力大數據的成本都會下降,而且數據規模會更大,只要通過實時監控,只要有數據就收過來,而且大數據可以重復利用。
統計學作用領域的擴大。大數據從以前不可數據化的領域提取出來,像影像,現在非難處理影像的資料,聲頻和音頻的資料。統計可以發揮作用的領域也將會擴大。
統計學科體系的延伸,引入大數據以后,現有的統計學科分為樣本統計、總體統計,我仍然可以用抽樣的方法調查總體,描述總體的特征,同時又可以從總體的統計印證抽樣方法是不是對的,是不是有代表性。樣本統計研究的是隨機性,大量現象數據規律的一致性。而總體的統計研究對象是海量中的全樣本的特征,整個目標人群的特點,總體統計是基于大數據的信息統計方法。統計學家的地位顯然得到提升,所有的這些都需要統計學家的參與。
大數據像一個巨大的金礦,統計學家和分析學家通過合理利用數據,一定程度上起到行業的作用,可以延伸到各個領域,醫療領域、通信領域,或其他等等的。現在谷歌、雅虎就是這樣的,我們可以為各行各業提供有價值的建議。現在在國內招生物統計學家非常難,我們部門一個工作兩年的人,跳槽至少兩萬以上。因為美國統計學家滲透到各個統計,警察局的也招一個,學統計的根本不回來,招不到人,任何小部門的都有統計,要拿SaaS幫他算看結果怎么樣。由于統計學家和數據分析學家可以從大數據中挖掘大量信息,并且轉化為價值,所以他們的地位會得到大幅度提升。
統計學的大數據化可以預見,由于大數據依賴于統一建立的數據中心,所以大數據的發展要依賴數據的開放、共享。希望在座的院長們把數據開放,衛計委要把醫保數據開放,各個省的醫保連在一起,我們在做大數據的研究不需要花費人力物力追蹤病人做了手術以后是不是死亡,是不是再住院,是不是再到別的地方看病。我查醫保數據就可以知道了,他報銷都要體現。希望整個數據全社會開放共享,統一學的大數據化程度就取決于大數據公海的程度,希望領導重視這一點。美國就是這樣,美國做一項研究是不給醫院錢,醫院自動參加。只要他的數據開放,就可以跟全美醫院進行醫院質量的評價,這個質量他們公布在網上。病人一看這家醫院的死亡率很低,就不到死亡率高的醫院看,給他們帶來更多的收益。急性心梗在我們醫院和在別的醫院發生相差幾十倍,公開是非常重要的。
機遇與挑戰并存,希望我們共同面對,共同解決這個問題。謝謝大家。