為了推進數據整合和信息共享、發展以數據為基礎的醫療健康服務體系,11月28日至29日,“2015中國醫療健康大數據峰會”在北京召開,此次會議圍繞“開放、變革、發展”的主題,邀請主管部門、科研機構、醫療機構、優秀企業、市場研究機構等領導與專家、高層及800余位行業精英參與,深入探討科學推進醫療健康大數據的應用和價值挖掘、推動醫療健康大數據依法有序開放、醫療健康大數據互聯互通、數據標準與安全等醫療健康大數據相關熱點議題,為我國醫療健康的數據的發展提供前瞻的思想與觀點,為研究制定促進健康醫療大數據應用的政策和戰略獻計獻策。
在28日下午舉辦的醫療健康大數據商業與價值論壇上,中南大學信息科學與工程學院院長鄒北驥作了題為《青光眼病預測與輔助診斷的大數據分析方法》的精彩演講,以下為演講實錄:
各位老師、朋友,大家下午好!
下面,我給大家匯報一下我們的一個工作,因為我們也不是學醫的,但中南大學有三所著名的醫院,我們跟湘雅醫院合作,我們利用采集到的數據,或者現在不叫大數據,我們希望是大數據,來針對一個特定的疾病,進行一些篩查,或者病情的預測、分析。
我們這個項目,得到了今年的國家自然科學基金為的支持。我們為什么選擇這個題目呢?大家知道,在眼科里面有個很重要的疾病,叫青光眼,青光眼是非常嚴重的,最后可能會致人失明。
有過數據統計,2020年,全球的青光眼患者,預計會達到8000萬。我們國家的患者,會達到2200萬,其中致盲的會超過1120萬。這個圖表,反映了青光眼從2010年有的數據,預測到2020年會有明顯的增加。
但是我們知道,醫生現在都非常的忙,我們了解了一下湘雅的醫生是這樣的,看一個病人最多是5分鐘時間,有時候快的話就3分鐘。所以,他很難考慮青光眼為什么會發生,青光眼之后多長時間會導致病人的失明?所以,醫生只能根據單個病人的數據進行判斷和分析,比如說視野、眼壓,通過自己的一些檢測手段,有一定的不準確性,特別是導致青光眼致命的因素,很難弄清楚,也沒有時間去弄清楚。因此,他很難預測這個疾病的發生及嚴重性。
我們知道,青光眼分幾個階段,有早期的檢查不到的病變。然后,有無癥狀的進展期,到了晚期就非常嚴重了。所以,這些細節的東西都很難通過醫生,或者他們沒有精力、沒有時間去考慮這個問題。
所以,我們想來做這件事情,就是通過對青光眼患者病例的大數據關聯分析,為青光眼篩查和病變的預測提供支持。
我們做的時候,剛開始沒有很多數據,我們希望通過逐漸的采集數據,包括三個方面的數據:一個是文本的病例數據,第二塊是我們常規的醫學檢驗數據,第三部分是影像數據。來挖掘出青光眼疾病的致命因素,更加客觀的篩查青光眼疾病,預測青光眼疾病發生的概率,以及后果的嚴重性。
我們具體做了這么幾件事情:
1、我們想建立一個青光眼患者的病例數據庫,也包括三個方面的數據,同時對數據的完整性和安全性進行保護,因為我們這個團隊原來主要是做影像醫學,團隊里面也有做文本信息挖掘和信息安全的,我們把它結合起來,對患者病例各方面的數據,一個是通過采集、建庫,進行安全性和完整性保護。
2、對其中的非結構化數據,比如影像數據、文本電子數據,進行結構化,從而提取青光眼疾病相關的病理特征,將多種特征進行融合,統一特征的緯度,來實現多元異構數據的結構化重組。
在這個基礎上,我們研究繼續學習的算法,提出新的適合青光眼數據分類器,來實現青光眼篩查以及疾病類型嚴重的程度,模擬人的智能繼續學習。從多元異構數據中挖掘青光眼的致命因素、發病概率,等等。
3、我們想實現一個原型系統,通過這個系統,基于已有的數據庫,來實現青光眼病的自動篩查和病病的預測。
這是我們的實施方案,從數據的采集、建庫、安全保護,數據的提取,最后到關聯分析。
我們首先采集病例數據,今天上午也談到了從院里采集數據也非常困難,我們投入了差不多100萬,我們自己來買設備,一個是買眼底相機、OC機、眼壓計,把相關的設備買過來以后,我們準備在全校范圍內,對各個不同年齡段的在崗的或者離退休人員進行免費的篩查。通過這種篩查的方式,獲取青光眼的數據。
因為我們調研了一下,如果免費篩查,很多人會愿意,當然這個事情我們會和湘雅二醫院的醫生,我們會請他們來坐診。因為檢查過程中,考慮到大家有一些青光眼病的疑問要解答,所以投入設備,依托數據來做。
除了投入設備,我們還有很多種采集的方式,首先是跟醫院結合,當時我們想就在門診,派一些年輕的老師和學生,在患者進來的時候,比如填表,或者開發一個APP,大家說時間太短,因為一個患者進來大概只有幾分鐘時間。第二,很多患者可能不會用手機,比如我們設計一個APP在他候診的時候,我們先把數據采集上來,可能我們會用多種方式結合在一起,比如到門診,或者到住院部,來采集。
當然,采集的數據是多樣的,我們可以看到有多種多樣的數據,也有文本的,也圖像的。我們建庫的時候,有個很重要的內容是數據的標定、標注,我們要建立學習的樣本,哪些是和青光眼密切相關的,首先有專業的醫生給他標定出來。標定我們設計了一個軟件,已經基本做好了,在這個軟件的輔助下,醫生就可以很快速的標注,比如視碑、視盤的位置。
同時,我們也要采集一些文本的信息,包括一個患者的基本信息,特別是有沒有家族史,青光眼跟哪些因素有關我們不是很清楚,是不是跟生活習慣有關?這些都有待于我們進行挖掘,如果有一天我們這個項目找到有關系的關聯,就是有意義的。
1、現有的電子病例,怎么把它收集上來?
2、患者就診的時候,通過填表來采集。
3、研發手機APP來采集。
4、我們和大夫社區義診的形式采集。
我們也需要跟醫院合作,我們的目的就是建立標準青光眼庫。標注的主體是醫生,通過一個軟件讓他快速、準確、高效率的進行數據的標定。標定包括,比如確定視盤的大小,等等。
怎么來確定視盤的大小呢?當然有很多種方法,我們把這些方法融到我們的軟件里面去,讓醫生標定的時候更加快捷一點。這里面,也包括了怎么確定視盤的邊緣和視盤大小的比,已有的研究表明,視盤邊緣數字的比值,對青光眼是非常有幫助的。包括視盤和視碑右邊這個圖形,他們之間到底跟青光眼是什么樣的關系?我們都覺得非常有意義,這里面有很多值得研究的地方。這個圖也可以反應出,視盤、視碑,投影以后的邊緣形象,之間是什么樣的關系?通過各種圖形的提取和數據關聯分析,得出這些結論。
除此以外,也包括醫學病例數據的安全性保護方法,我們提出零水印。因為,醫學影像保護,一點都不能破壞原有圖像的內容。傳統保護方式有加水印的方法,或多或少會改變影像內容,而醫學影像是用來做診斷的,我們提出用零水印的形式,來做醫學影像的保護。
最后,形成多元異構特征數據的關聯。我們希望通過這些研究工作,能開發出一個青光眼自動篩查和病變應對的系統,我們希望把所有模型融入到這個系統里面。通過這些,最后實現數據篩查和病變篩查的結果。謝謝!