現在,隨著大數據技術和可穿戴健康監測設備技術的不斷發展和普及,虛擬臨床試驗和研究向我們走得越來越近,您看下面的最新案例。
1.從大數據移動健康平臺說起
據《網易新聞》轉載《北京青年報》的報道:“3月10日,蘋果公司召開2015春季發布會,其中一款全新的醫療應用ResearchKit瞬間聚焦了全球果粉的目光。在新產品的合作伙伴里,首都醫科大學宣武醫院作為首批并且唯一參與研究計劃的中國醫療機構,與各種知名互聯網公司一同出現在大屏幕中。”據了解,在此次蘋果公司搭建移動健康平臺,使移動醫療模式“入駐”可穿戴設備的設計中,曾做過不少前期調研。在選擇什么樣的疾病作為首先的切入點時,綜合考慮了病人數量、便于監測與管理、適合移動醫療模式等因素后,決定將包括帕金森在內的五種疾病監測APP首批推出。
帕金森病(PD)又名震顫麻痹,是最常見的神經退行性疾病之一。流行病學顯示,患病率為15~328/10萬人口,大于65歲人群約1%;發病率為10~21/10萬人口/年。PD病因及發病機制尚未明確,可能與社會因素、藥物因素、患者因素等有關,本病最大的危害在于患者生活質量嚴重下降,生活不能自理,并常出現多種并發癥。看到以上的數據,我們不難理解為什么選擇帕金森病作為首選的五種疾病之一進行大規模監測了。
“依托蘋果手機和iwatch平臺,這套設備可以動態監測追蹤病人的震顫、步態、動作快慢、發聲變化、基本生命體征以及生活相關信息。”通俗來說,作為疾病研究的工具,這套系統可以打破原本帕金森發病不定時的治療瓶頸,對于在診室里沒有發病的患者,可通過穿戴式設備的隨時監測,動態地、連續地記錄發病時的數據,方便醫生收集,并提出更好的治療方案。通過這項研究,不僅可以解決以往沒有客觀的手段可以對疾病的輕重、病情的發展、藥物干預是否有效等問題進行測量的缺憾,同時也可以更好地在提早發現帕金森預兆上發揮作用。“通過裝置反饋的數據,如果一些征兆不斷地向前發展,可以提早預警患者,該做什么檢查和治療,避免錯過最好的治療時機。”
我們相信,今后越來越多的類似項目會開展起來,原先的科研項目中未得到充分代表的群體將得以體現,數據收集速度將大幅加快、成本也會大幅下降,參與者退出的幾率也會降低不少。正如我們在先前的博文中提到的,有了這些更具代表性的大數據后,我們便可以進一步開展“虛擬藥物臨床試驗的大數據挖掘”工作了。
具體到大數據挖掘技術,目前常用的、在實踐中證明有效的已有不少了,我們會摘取一些加以介紹,今天介紹的是關聯規則技術。
2.關聯規則發現大數據中的“規則”
在《數據挖掘技術與工程實踐》一書中,我們介紹了關聯規則的經典應用。下面我們摘錄書中一些關聯規則在醫學上的擴展應用。我們觀察一下事件A和事件B的并發組合,如表1所示。
表1:A、B事件的并發組合
作為事件A和事件B的并發組合一共四種情況:
001:前件A->后件B
002:前件A->后件非B
003:前件非A->后件B
004:前件非A->后件非B
其中“非A”表示事件A沒有出現,“非B”表示事件B沒有出現。如果我們將以上每種情況的支持度和置信度簡化為高低兩個取值,則不同支持度和置信度下的事件A和事件B并發組合總共有16種,如表2所示。
表2:A、B事件的并發組合情況
2.1對不同并發模式的興趣
不同支持度和置信度的并發組合模式分為如下幾種:
HH模式:高支持度高置信度
HL模式:高支持度低置信度
LH模式:低支持度高置信度
LL模式:低支持度低置信度
第一種HH模式是很常見的應用,前面談過很多了,這里我們不再討論了。我們主要看一下后面三種模式在醫學上的應用。
1.HL模式
在合并癥研究中,關聯規則模型的支持度高時,說明該合并癥病例的基數很大,置信度雖然可能不高,但因為病例的基數大,事件A(合并癥A)伴隨事件B(合并癥B)出現的情況也是一個常見的情況。比如某種代謝病的基數很大,伴隨出現酮癥酸中毒癥雖然置信度不高,但是因為代謝病的基數大,酮癥酸中毒癥伴隨代謝病(或者說代謝病合并酮癥酸中毒癥),也算是一個常見的情況,需要加以注意。
2.LH模式
這是一種低支持度和高置信度的模式。因為這種模式的置信度高,所以伴隨現象從前件推知后件的正確概率很高。這樣的模式見于一些少見疾病的特殊伴隨現象。這種特殊伴隨現象作為一個特征,可以用來發現和提示少見疾病的特殊伴隨現象的出現,比如傷寒和相對緩脈的同時出現。或者是常見疾病的少見伴隨現象,通過前件來推測后件的出現,如感冒引發病毒性心肌炎。
3.LL模式
低支持度和低置信度模式看似無用,但是在醫學這種特殊行業(當然其他行業也可能有類似情況),會有一些很少見的伴隨現象,卻具有極高危險性,如某癥狀A引發急性心肌梗塞這樣的情況。低的置信度是因為這種情況下,心肌梗塞不表現出典型的癥狀,而是以少見的癥狀A為表現。如果沒有想到癥狀A后面的心梗,則會耽誤救治的最佳時機,可能是一個致命的疏漏。LL模式主要應用于尋找這類擁有高破壞力后件的少見伴隨現象。
2.2負模式規則和零模式規則
如表1中所示,我們將001(前件A->后件B)這樣的關聯規則,稱為關聯規則的“正模式”;將002(前件A->后件非B)或003(前件非A->后件B)這樣的關聯規則,稱為關聯規則的“負模式”;將004(前件非A->后件非B)這樣的關聯規則,稱為關聯規則的“零模式”。
經典的關聯規則發現的是表1的ID-001的部分。當事件A出現時事件B也出現,且具有高支持度和高置信度,如某種疾病的高血壓癥狀和高血膽固醇癥狀的伴隨出現具有高置信度和支持度。這樣的關聯規則我們稱之為“正模式”規則。ID-002和ID-003是另外一種關聯形式,淺灰色的是事件A出現時事件B不出現,如買了A品牌啤酒的顧客不買B品牌啤酒,再如有高血壓癥狀的病人沒有高血膽固醇癥狀的伴隨出現。深灰色的是事件A不出現時事件B出現,如沒有買A品牌啤酒的顧客購買B啤酒,再如沒有高血壓癥狀的病人卻有高血膽固醇癥狀的出現。這樣的關聯規則我們稱之為“負模式”規則。ID-004是又一種模式,沒有出現事件A時事件B也沒有出現,如沒有購買A啤酒的顧客也不會買B啤酒,再如沒有高血壓癥狀的病人也沒有高血膽固醇癥狀的出現。這樣的關聯規則我們稱之為“零模式”規則。
醫學數據的特點與購物數據不同。醫學數據的非A(非B)不是購物籃中的沒有購買,而是可能某醫學指標處于正常范圍、低于某值、高于某值或未出現某癥狀等這些非異常的狀況。
1.負模式規則
應用負模式規則是一種特殊的伴隨現象,在醫學上的用途之一是可以發現致病因素或疾病的保護因素。當非A事件與疾病伴隨出現時,尤其是非A事件與疾病的伴隨是LL模式時,提示事件A可能是個保護性因素。當然這只是個現象和可能,具體事件A是不是該病的保護性因素還需要大量的醫學驗證。而相反,如果事件B是對某疾病有益的因素,當事件A與非B事件伴隨出現時,A可能作為某疾病的危險因素而出現。另外,當發現某種癥狀不出現時而能確診某疾病,這樣的情況可以發現、排除診斷某種疾病的特征維度(癥狀)。
2.零模式規則
應用零模式也是一種特殊的伴隨現象,醫學上的用途之一是可以發現某疾病的致病因素或保護因素。在合并癥的研究中,當非A事件與不利的非B事件伴隨出現時,非A事件可能是個保護因素。如事件B是“高密度脂蛋白在正常范圍”,非A事件與非B事件“高密度脂蛋白不足”伴隨出現,事件A有可能是個保護因素。如果非A事件與有利的非B事件伴隨,則事件A可能是個致病因素或危險因素。
當然,我們提出的負模式規則應用和零模式規則應用絕不能向前面討論的這樣簡單操作,實際情況遠遠比我們想象的要復雜,我們需要將所有的影響因素考慮進去。這里,我們給大家提供比經典關聯規則應用更寬泛的應用思路。(責任編輯:西西 來源:大數據 作者:洪松林)