本文摘自《計算機科學與探索》。
隨著“互聯網+”的迅速發展,醫療大數據不僅數據類型繁多、關系復雜,且呈爆炸式增長,一般的數據可視化方法難以對其進行有效地展示,醫療大數據可視化技術面臨巨大挑戰。本文概述了醫療大數據的起源、特點及其研究進展,介紹了醫療大數據可視化的相關概念及其研究現狀,將現有醫療大數據可視化方法劃分為兩大類,分類闡述了常見的醫療大數據可視化方法,給出了包括分類、圖例、特性的可視化方法比較一覽表。最后分析了醫療大數據可視化中存在的問題,指出其未來研究重點,對醫療大數據可視化方法研究與普及應用具有重要的參考價值。
大數據;醫療大數據;大數據可視化;互聯網+
隨著“互聯網+”的迅速發展,醫療大數據呈爆炸式增長,面臨著海量數據和非結構化數據處理的挑戰。近年來很多國家都在積極推進醫療信息化發展,醫療大數據的分析和應用發揮了巨大的作用,大大提高了醫療效率和醫療效果。傳統醫學是患者生病后由醫生來治病,而目前疾病預防重于治療,強調醫生應該對“健康人”迚行健康管理,把疾病治療的關口前移。因此,展示醫療大數據的重要性和有效性突顯出來,研究醫療大數據可視化技術變得尤為關鍵。
自2007年IBM正式提出“云計算”概念以來,許多專家給出“云計算”的定義,各種智能設備、傳感器、電子網站、社交網絡每時每刻都在產生海量數據,引發數據規模爆炸式增長,從而催生“大數據(Big Data)”出現。醫療行業將和銀行、電信、電商等行業一起邁入大數據時代。
大數據被定義為5個“V”(規模Volume、多樣Variety、速度Velocity、價值Value、真實Veracity)。第一,數據規模龐大(Volume):大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。目前,大數據規模是一個不斷變化的指標,單一數據集的規模從幾十TB到數PB不等;第二,數據類型繁多(Variety):比如社交媒體(圖像、音頻、視頻)、互聯網搜索及傳感器網絡、地理位置信息等;第三,處理速度快(Velocity):即數據被創建和移動傳輸的速度快。這一點也是和傳統的數據挖掘技術有著本質性的不同;第四,價值密度低,商業價值高(Value):通過分析大數據可以得出事物發展趨勢從而獲取有價值的信息。第五,數據真實性(Veracity):大數據的本質就是從龐大的網絡數據中科學的提取出能夠解釋和預測現實事件的過程,然而數據內容的真實與否,將影響大數據的有效性,迚而影響其價值。
醫療大數據指的是在醫療行業中產生的數據,它們主要有以下四個來源:
近年來,醫療大數據理論得到初步發展,但在其應用方向發展緩慢。醫療大數據除了具有大數據5 個V的特點之外,還有多態性、時效性、不完整性、冗余性、隱私性等特點。多態性是指醫師對病人的描述具有主觀性而難以達到標準化;時效性是指數據僅在一段時間內有用;不完整性是指醫療分析對病人的狀態描述有偏差和缺失;冗余性是指醫療數據存在大量重復或無關的信息;隱私性是指用戶的醫療健康數據具有高度的隱私性,泄漏信息會造成嚴重后果。
喬布斯通過大數據輔助治療癌癥,丹麥癌癥協會通過大數據研究手機是否致癌等,美國最大的西奈山醫療中心(Mount Sinai Medical Center)使用來自大數據創業公司Ayasdi的技術分析大腸杄菌的全部基因序列,包括超過100萬個DNA變體,來了解菌株為什么會對抗生素產生抗藥性。上述應用研究體現出分析醫療大數據的價值。
醫療大數據的研究仍處于探索階段。由于醫療大數據作為跨學科的研究,研究過程存在一定難度,而且醫療系統數據管制體系也導致了醫療大數據難以獲取、醫療信息孤島等問題的存在,使得醫療大數據研究難以在一般研究機構開展。目前,相關工作主要集中在工程應用部分,具體體現在數據采集和存儲。而在理論研究方面,大多數工作現僅停留在評述醫療大數據規模特點及使用價值上,針對醫療大數據本身的挖掘計算、數據關系分析和可視化技術等基礎方面的實質性研究較少。
在計算機科學的分類中,利用人眼的感知能力對數據進行交互的可視化表達以增強認知的技術稱為可視化。大數據可視化不僅利用數據挖掘技術從數據中挖掘有用的信息,而且還要把數據挖掘技術得到的信息向用戶直觀地展示。
一幅圖勝過千言萬語,從此立足點出發,大數據分析的理論和方法研究可以從兩個維度展開:一是從機器或計算機的角度出發,強調機器的計算能力和人工智能,以各種高性能處理算法、智能搜索與挖掘算法等為主要研究內容,例如基于Hadoop和MapReduce框架的大數據處理方法以及各類面向大數據的機器學習和數據挖掘方法等,這也是目前大數據分析領域的研究主流;另一維度以人作為分析主體和需求主體的角度作為出發點,強調基于人機交互的、符合人的認知規律的分析方法,意圖將人所具備的、機器并不擅長的認知能力融入分析過程中,此研究分支以大數據可視化為主要代表。
面對不斷復雜的醫療數據和日漸增長的就醫需求,醫療大數據可視化是最為行之有效的工具。它具有挖掘數據價值、預測疾病發展趨勢、輔助臨床診斷、研發生物醫藥等方面的作用,從而推動大數據時代背景下智能醫療不斷前進。
大數據可視化技術包含傳統的科學可視化和信息可視化,從大數據分析以挖取信息和洞悉知識作為目標的角度出發,信息可視化技術將在大數據可視化中扮演更為重要的角色。數據信息類型各異,可分為時空數據、非時空數據兩大類。這些與大數據密切相關的信息類型與Shneiderman的分類交叉融合,將成為大數據可視化的主要研究領域。
大數據分析技術不僅對結構化數據有很強的處理能力,對非結構化數據的分析能力也日益加強,例如醫療影像(X光片、CT、MRI)數據可以借助于圖像識別技術,通過區分不同灰度值,來判斷病灶的精確位置,從而使得臨床決策支持系統更加智能化,給醫生提供更合理的診療建議。 盡管醫療大數據信息類型繁多,但強大而靈活的可視化技術,可以增強醫療大數據的可讀性。為便于對醫療大數據迚一步的理解和應用,而對不同類型的醫療大數據可視化方法進行分類研究顯得尤為重要。
本文分析常見的16種醫療大數據可視化斱法,根據數據特點將其分為以下兩類:時空數據和非時空數據,如下圖所示。
時空數據是指具有地理位置與時間標簽的數據。傳感器與移動終端的迅速普及,使得時空數據成為大數據時代典型的數據類型。時空數據可視化與地理制圖學相結合,重點對時間與空間維度以及與之相關的信息對象屬性建立可視化表征,對與時間和空間密切相關的模式及規律進行展示。大數據環境下時空數據的高維性、實時性等特點,也是時空數據可視化的重點。
綜上所述,當前有關醫療健康和生物大數據的研究在基礎研究、臨床應用及新興產業中發揮了不可替代的作用。在“醫療健康與生物大數據”論壇中,探討醫療健康和生物醫藥大數據在基礎研究中的價值及面臨的挑戰,釋放更多無法衡量的價值。希望通過大數據的應用,引領醫療領域的可視化分析,從而走向醫療大數據可視化的新時代。
未來, 醫療大數據規模將越來越大、類型也將越來越多、結構也會越來越復雜,醫療大數據可視化及可視分析面臨巨大挑戰。醫療大數據可視化及其可視分析技術在精準醫療領域、公共衛生領域、生物醫藥領域以及生命科學等眾多領域將會發揮更大的作用。