• 首頁 > 觀點 > 中國科學院院士陳潤生:大數據與精準醫療

    中國科學院院士陳潤生:大數據與精準醫療

    2017-06-15 觀點 Eli

    中國科學院院士陳潤生:大數據與精準醫療-智醫療網

    2016年12月8-10日,由中國計算機學會(CCF)主辦,CCF大數據專家委員會承辦,中國科學院計算技術研究所、中科天璣數據科技股份有限公司與CSDN共同協辦,以“聚焦行業最佳實踐,數據與應用的深度融合”為主題的2016中國大數據技術大會在北京新云南皇冠假日酒店隆重舉辦。

    2016中國大數據技術大會首日全體會議中,中國科學院院士陳潤生帶來了名為《大數據與精準醫療》的主題演講。期間,陳潤生表示,精準醫學的核心就是組學大數據與醫學的組合,其可以使醫療健康的概念發生本質變化,從診斷治療轉變到健康保障。精準醫學剛剛起步,面臨幾大挑戰:首先是基因組中的暗信息,人類目前只能讀懂基因密碼中3%的序列,其他序列的含義則不得而知。大數據方面的挑戰包括:計算量大,數據源噪音高、信噪比低、缺失值高、錯誤率高;樣本量小;有效事件頻率低;疾病相關的復雜網絡;高度異質化數據的整合;數據共享困難。

    中國科學院院士陳潤生:大數據與精準醫療-智醫療網

    中國科學院院士 陳潤生以下為演講實錄

    尊敬的各位專家,各位朋友,非常榮幸,能夠應邀參加這個大會,我今天主要談一談關于大數據和精準醫學的情況,希望大家批評指正。

    2015年1月20號美國總統奧巴馬提到要開展精準醫學的研究,從此美國和西方發達國家就開始了精準醫學的研究。很快這個消息傳到國內,習總書記和克強總理都有批示,所以作為重大專項,精準醫學的重大專項已經立項了,而且已經大約有12億人民幣。

    首先什么是精準醫學?核心就是一句話,組學大數據與醫學的結合,特別是在臨床醫學當中的應用。隨著上世紀九十年代遺傳密碼的破譯,以遺傳密碼或者基因組為代表的大量的分子水平的數據,也稱作組學數據不斷地產生,目前增加的速度比任何已知的數據都產生的快。由于研究技術的發展,測一個人類的遺傳密碼,現在已經變的非常非常簡單和容易。近年來開展分子水平的信息用到醫學特別是臨床醫學當中,提高臨床診斷的效率和治療的效率,實際上就締造了精準醫學的應用。因此精準醫學的核心,即把組學大數據應用到醫學當中,可是這些組學大數據比較大,因此直接作為醫學專家或分子生物學家無法看懂,必須經過大數據科學家用特定的理論方法和技術進行挖掘才能獲得有關用于臨床方面的知識,所以精準醫學是組學大數據在臨床當中的應用。遺傳密碼的測量現在不成問題了,但數據挖掘找出和疾病相關,將是一個現在非常迫切的問題。因此從人類密碼研究以后就產生了轉化醫學、個體化醫學等等的詞匯,但是在2011年的時候,國際上出現了“精準醫學”這個詞,實際上是對這個趨勢總體的概括和總結。

    精準醫學帶來什么樣的本質變化,為什么各國領導人都這么重視呢?精準醫學本身之所以受到很多國家領導人的重視,由于精準醫學有可能產生一些本質性的變化,最主要的本質性的變化。“精準醫學”可以使得醫療健康的概念發生本質的變化,從當年醫療健康體系以診斷治療為主,轉變到以健康保證為主。現在的醫學是以病人為對象,以診斷治療為目的,也就意味著由病人、醫院和醫生組成的一個概念化的醫療體系。而隨著精準醫學的發展,我們可以通過對大數據的分析,在用戶沒有病的時候,了解他的健康狀況,預測他未來健康的發展,這種情況下我們醫療健康所面對的對象就不再是病人,而是全民,全體人。

    因此醫療體系的概念也不是以治療為目的,是以健康預測,健康評估和健康干預為目的,這樣的話整個醫療體系就會發生概念性的變化,從現在看病為主,到以后的預測保證為主。這樣一個概念性的根本變化,必然會導致相應產業的發展,因此有人估計到2018年的時候圍繞新概念所產生的產業也許能達到2千億美金以上,所以這是一個能夠一定程度上影響GDP的值。因此這樣一個精準醫學的概念,已經成為引領國際發展潮流的戰略制高點,所以才引起各國領導人的重視,所以精準醫學實際上是會帶來一些,不論醫療概念還是產業上都會有一些本質上的變化,所以才會引起各國領導人的重視。

    美國也推動精準醫學的發展,最重要的表現是要測量一百萬個自然人的遺傳密碼,一百萬是很大的數。歐盟也在開展精準醫學的研究,要測十萬個腫瘤和罕見病人的遺傳密碼。日本也有相應的精準醫學的計劃。那么精準醫學到底在新的產業當中,哪幾個方面能帶動所謂新的增長點呢?我想至少在如下四個方面:

    精準醫學可以推動海量的生物樣本庫和海量的數據庫的發展,精準醫學會導致十萬到百萬人的生物樣品的測量,這就涉及到海量規模的實質性的生物樣品的搜集、保存、樣品的制備與提取,以及樣品提供使用的各個方面。沒有百萬量級的數據庫,當然就不能適應它的發展,而這些數據測量完以后,這些百萬量級的數據應該有相應的數據庫來保管,所以第一個要推動海量規模的生物樣本庫和數據庫的發展,有人估計這個在未來一兩年可以達到一百億美元的數據樣本。

    可以帶動基因組序的數據規模,這個產業有人估計2018年可以到117億美金,個人和有關測序方面的專家討論,由于測序如此便宜我覺得這個數據肯定比它多。

    新藥物設計的靶點發展,這個產業直接涉及到醫療診斷和藥物設計,這是第三個產業。

    圍繞精準醫學概念所產生的實質性的,比方說健康設施、健康從業人員的健康領域的大的產業圈,這個產業圈估計2018年可以到達2千億美金,這些方面都是精準醫學可以帶來的,可以預見的實打實的新的產業。我國精準醫學的目標和上面國際的是一致和接軌的。

    精準醫學既然概念明確,各個國家都很重視,要實現精準醫學要具備哪些條件?我認為至少具備兩個條件,一是要搜集獲取大量的組學數據,而這些組學數據必須經過大數據技術的深刻挖掘,所以第一個基礎是當前國際兩大前沿,就是組學和大數據兩大科學的交叉與融合。有了這個結果,我們就可以獲得大量跟疾病相關的分子水平上的變異,然后我們要利用這些數據開展第二個基礎研究,就是搭建分子水平的信息和宏觀疾病之間關聯,就是建立分子水平的信息和宏觀疾病之間關聯的橋梁,也就是發展所謂生物信息學、生物網絡、系統生物學等等一系列的東西。有了這兩個橋梁,有了分子水平的信息,我們就可以很好的實現精準醫學了。

    精準醫學需要說明的一點,精準醫學實際上和現在的傳統醫學、影像學、生化學、醫生的經驗是相輔相成的,互相推動與互相促進的,不像我接觸的有些過度的宣傳精準醫學的作用,說我們測序以后什么都能解決了,實際上不是,精準醫學是建立在前人知識的基礎上,必然與現在的技術緊密結合才能提高醫療的水平。

    精準醫學才剛剛上路。雖然它有很好的概念上的變化,雖然給我們展示了醫療體系未來的美好前景,但由于精準醫學的路上不論是組學測量也好,大數據分析也好,都存在著一些非常巨大的障礙,所以我認為精準醫學目前才剛剛起步,我們還有太多的事情要做。

    到底創新的機遇在哪里?它的挑戰在哪里?其實有很多,今天我就下面組學和大數據處理的一些困難,簡單地提一兩項困難,大家就可以看到實際上精準醫學的路還是相當漫長的。

    第一個是在組學測量當中存在的巨大挑戰和困難。目前精準醫學是以遺傳密碼為依據。首先有一個疑問,在當前我們對自身人類的遺傳密碼了解多少,如果我們都了解了實現精準就有了分子依據;如果了解很少,那就有太多的事情要做。而事實上,遺傳密碼每個人都有3乘10的9次方,如果把該字符裝訂成書的話,大約四十層樓高的高度,我相信誰也讀不了,在當前集全人類的智慧我們只能讀懂其中的3%,這就是當前的挑戰。我們的遺傳密碼花七千塊錢就可以測出,但你能讀懂的部分大約只有3%,這3%就是大家從中學時候知道的編碼蛋白質的部分,或者遵從中心法則的部分,我們稱作遺傳密碼當中的編碼序列,而另外的97%是不編碼蛋白質的,也是迄今為止我們讀不懂的部分。換句話說我們的遺傳密碼里現在還大致有97%現在是讀不懂的,既然它干什么都不懂,當它有了變化當然也不知道。在這個含義下,我們用作組學研究的話,當然存在著巨大的困難和障礙。

    下面展開一點做討論。首先從遺傳密碼看,也就是基因組研究,我們知道在人的遺傳密碼當中迄今為止97%的遺產密碼還讀不懂,因此當然無法做到精準。而如果我們做個比較研究,從低等生物到高等生物來看,生物越低等,大腸桿菌的遺傳密碼,我們用原盤表示,85%都是紅的,就是能知道規律的編碼蛋白質的部分,它占了絕大部分。生物高等一點,酵母是單細胞的真核生物,編碼蛋白質的部分少了,非編碼的多了。線蟲,它已經是最簡單的多細胞生物了,它用做編碼蛋白質的只占28%,非編碼占71%。果蠅,這個時候編碼的部分已知歸類的部分只有17%,非編碼占到了80%多,而對人來講97%~98%都是非編碼蛋白質。所以也許大家有一個約定俗成的概念生物從簡單到復雜從低等到高等一定是蛋白越來越多,實際上不對,它伴隨著功能增加是以我們現在不掌握規律的非編碼蛋白質的的增加,也就是說非編碼蛋白質和高級生物相關,當然也一定和疾病相關。

    轉錄組研究。這個結果是百分之百肯定的,全世界的實驗室毫無例外的找到非編碼序列信息發放制造功能元件的信息,毫無例外,所以這樣的工作,充分證明了這97%是實現重要的生物學功能的,為此我給大家舉幾個簡單例子,雖然這97%全貌不理解,但個別的例子,比如97%的一個產物可以導致所謂的前列腺癌。另外一個來自97%的可以導致白血病,另外一個來自97%的可以導致非小細胞肺癌。這三個例子說明什么?說明來自我們不知道規律的那97%依然能導致腫瘤,大家如果在座的臨床醫生專家的話,可以知道我們現在對腫瘤在醫院當中診斷治療,所有的對象只利用了3%的信息,從來沒有那97%。現在有充分的例子說明,那97%也可以導致非常嚴重的疾病,如果不把它納入疾病的診斷治療當中來,精準又如何實現呢?

    當然我們知道在97%里也有非常好的東西,請大家記住H19,這是一個非常重要的非編碼的元件,它的存在可以讓我們已經癌變的細胞通過某種途徑進行消亡。那么有多少這樣的元件還沒有被發現呢?在座的如果有對生物感興趣的研究工作者可以參考,大家知道日本在小鼠里邊做過實驗,發現大約16萬個來自那97%的像蛋白一樣重要的功能元件迄今為止還沒有發現,所以我們還有太多的機會去發現新的重要的功能元件,了解它跟健康、發育、疾病的關系。在這個領域里邊,這兩位科學家在2006年獲得了第一個諾貝爾獎金,有人開玩笑我們估算一下現在對人的遺傳密碼知道了3%,你可以算算這3%締造了多少名諾貝爾獎的獲得者,我稍微統計一下不少于50名。

    我們現在又發現了龐大的97%,說明在這巨大的97%的領域里,還有一千多個諾貝爾獎金的位置,現在只有一個位置被占據了可以忽略不計,所以在大家面前有非常廣闊的創造巨大科學成果的機會。

    因此整個非編碼的研究,組學當中的一個巨大的障礙,雖然對精準醫學來講我們只掌握了3%,才剛剛起步,還有漫長的路要走。但是從另一方面考慮非編碼的研究一定會給我們提供巨大的機遇,也就是說97%信息的挖掘一定會為疾病的診斷和治療提供全新的方向,一定會對全新的藥物設計和研發提供全新的平臺。那么也會對動植物新品種,新性狀的培育提供新的機遇。

    下面簡單的談一談數據處理當中的一些挑戰。

    數據量大。一個人的遺傳密碼是3*10的9次方,其實這個數據的產生比較容易。現在一臺商用測序儀,一次測量可以得到1T的數據,這樣的數據作為商品就很容易買到。因此大家很容易可以看到測序。

    分析少。現在國際上開展微生物組基因計劃,這個時候我們知道人不僅僅是自己生活,如果考慮他人健康問題的同時也要考慮與人一起生活的微生物,那么微生物的遺傳密碼現在估計是人的一百倍,如果研究一個廣義的人,研究人連同微生物的人,一個人的測序要增加兩個數量級。但這樣一個數據從數據源來講不是很好的,它的噪聲比較好,因此性噪比比較低,另外有比較多的缺失值。因此從數據源來講是增速極快,數據質量不高,含有缺失值的數據,這樣在數據挖掘當中存在著第一個困難,就是數據源的困難。

    樣品量少。從樣品來看,我們一直需要樣品,比如研究肝癌,那么我們需要肝癌的病人。其實針對某一個特殊疾病搜集樣品特別困難,往往對特定分型的腫瘤,如果搜集兩三百個樣品已經很不錯了,我們整個的數學體系需要建模的體系往往自變量是成百上千甚至上萬,這種情況下如果只能取幾百個樣品的話,當然我們的邊界條件不足以固定內部的自變量數在這種情況下,由于樣品搜集的困難,很多條件下搜集的樣品不足以固定體系內部自變量的變化。這樣情況下有兩個途徑,一是加大樣品,比如為什么美國要測一百萬人的遺產密碼,我們中國的精準醫學計劃也要測一百萬人,就是說個人體系測樣本量遠遠大于體系覆蓋的自變量,但這往往是政府的行為,我們自己的研究組是不可能做這件事的,要有巨大花費。這種情況下當然就要考慮數學建模,把我們的系統變成子系統,使得外界的邊界條件和內部自變量能匹配,這就是所謂在大數據處理上,對于組學數據所需要的非常突出的數學分析當中的問題。

    有效事件頻率低。不僅僅樣品得來不易,而樣品的分子基礎也是各種各樣的,所以會帶來更多的樣品需求層次的問題。因此這就會導致一個非常重要的所謂精準醫學當中的科學哲學問題,即何為共同疾病的共同變化以及特異性變化。

    上述講的都是個別基因的變化,但每個基因并不是獨立工作的,往往是形成網絡,當我們面對進一步的所謂功能分析的問題,精準醫學的問題是復雜網絡的問題。我們知道生物網絡是動態的、有向的,是每個元件做到另外一個元件是定向的;元件不是單一的,既有蛋白也有核算,另外所有作用的方式,很大程度上都是非線性的,對這樣一個動態、有向,不同元件組成的東西,當然是復雜的。

    除了這個之外,大家知道我們不僅僅用組學數據還用其它影像學的數據,比如做核磁、CT的數據如何處理,最后是超出學界的問題,如何在全中國的范圍內實現數據的有效共享。我們知道現在每個醫院里都有數據,如果我們不能在全局上面進行數據共享的話,我們就是在大數據時代做小數據的工作,將來就失掉了大數據的背景和意義。

    所以看到在數據分享當中依然存在非常艱難的問題,最后就精準醫學的幾個概念和大家進行交流,個人認為精準醫學是一個重要且值得大家關注的方向,精準醫學才剛剛起步,需要我們不斷地克服困難,但這些困難恰恰也是我們的機遇,抓住這些機遇,有機會做突出的原創性的重要的工作。

    發表評論

  • 野花视频