美國NASA如何能提前預知各種天文奇觀?風力發電機和創業者開店如何選址?如何才能準確預測并對氣象災害進行預警?包括在未來的城鎮化建設過程中,如何打造智能城市?等等,這一系列問題的背后,其實都隱藏著大數據的身影——不僅彰顯著大數據的巨大價值,更直觀地體現出大數據在各個行業的廣闊應用。這些行業應用也都更直白地告訴人們,什么是大數據……
其實,大數據不是突然出現的,在過去的幾十年間,數學分析就已經涉獵金融行業了,諾貝爾經濟學獎獲得者哈里。馬克維茨、威廉。夏普、羅伯特。恩格爾就是利用計量經濟學知識和金融市場數據來建立數學模型,預測金融市場產品收益同風險波動的關系。
大數據時代的出現簡單的講是海量數據同完美計算能力結合的結果,確切的說是移動互聯網+、物聯網產生了海量的數據,大數據計算技術完美地解決了海量數據的收集、存儲、計算、分析的問題。
當我們最初談大數據的時候,談的最多的可能是用戶行為分析,即通過各種用戶行為,包括瀏覽記錄,消費記錄,交往和購物娛樂,行動軌跡等各種用戶行為產生的數據。由于這些數據本身符合海量,異構的特征,同時通過分析這些數據之間的關聯性容易匹配某些結果現象。即有一堆的行為因子x,同時又有一堆的結果構成y,我們找尋到了某種相關性,有利于我們調整后續的各種策略。
為何Google能夠做大數據?你思考過嗎?因為搜索本身往往是用戶行為的一個重要入口,即搜索引擎具備了實時采集多個用戶行為的x因子的能力。而這個能力往往是單個電商門戶網站無法做到的。但是搜索引擎做大數據的弱勢在哪里?即前面談到的用戶和用戶之間的關系較難建立,而更多是本身行為之間的相關性。從這個差異上也可以看到搜索引擎更加容易做交通,疾病,氣象等方面的大數據分析和預測;而類似電商平臺或類似騰訊更加容易做消費和娛樂類的大數據分析和預測。
對于大數據的應用場景,包括各行各業對大數據處理和分析的應用,最核心的還是用戶需求。接下來,本文通過梳理各個行業在大數據應用領域面臨的挑戰、如何尋找突破口來展示其潛在存在的大數據應用場景。
一、醫療大數據看病更高效
除了較早前就開始利用大數據的互聯網公司,醫療行業是讓大數據分析最先發揚光大的傳統行業之一。醫療行業擁有大量的病例,病理報告,治愈方案,藥物報告等等。如果這些數據可以被整理和應用將會極大地幫助醫生和病人。我們面對的數目及種類眾多的病菌、病毒,以及腫瘤細胞,其都處于不斷的進化的過程中。在發現診斷疾病時,疾病的確診和治療方案的確定是最困難的。
在未來,借助于大數據平臺我們可以收集不同病例和治療方案,以及病人的基本特征,可以建立針對疾病特點的數據庫。如果未來基因技術發展成熟,可以根據病人的基因序列特點進行分類,建立醫療行業的病人分類數據庫。在醫生診斷病人時可以參考病人的疾病特征、化驗報告和檢測報告,參考疾病數據庫來快速幫助病人確診,明確定位疾病。在制定治療方案時,醫生可以依據病人的基因特點,調取相似基因、年齡、人種、身體情況相同的有效治療方案,制定出適合病人的治療方案,幫助更多人及時進行治療。同時這些數據也有利于醫藥行業開發出更加有效的藥物和醫療器械。
醫療行業的數據應用一直在進行,但是數據沒有打通,都是孤島數據,沒有辦法進行大規模應用。未來需要將這些數據統一收集起來,納入統一的大數據平臺,為人類健康造福。政府和醫療行業是推動這一趨勢的重要動力。
二、生物大數據改良基因
自人類基因組計劃完成以來,以美國為代表,世界主要發達國家紛紛啟動了生命科學基礎研究計劃,如國際千人基因組計劃、DNA百科全書計劃、英國十萬人基因組計劃等。這些計劃引領生物數據呈爆炸式增長,目前每年全球產生的生物數據總量已達EB級,生命科學領域正在爆發一次數據革命,生命科學某種程度上已經成為大數據科學。
我們來看看今天的準媽媽們,除了要準備尿布、奶瓶和嬰兒裝,她們還會把基因測試列入計劃單。基因測試能讓未來的父母對于他們未出生的baby的健康有更多的了解。對基因攜帶者篩查和胚胎植入前診斷,使一個家庭孕育小孩的過程產生了巨大改變。
當下,我們所說的生物大數據技術主要是指大數據技術在基因分析上的應用,通過大數據平臺人類可以將自身和生物體基因分析的結果進行記錄和存儲,利用建立基于大數據技術的基因數據庫。大數據技術將會加速基因技術的研究,快速幫助科學家進行模型的建立和基因組合模擬計算。基因技術是人類未來戰勝疾病的重要武器,借助于大數據技術的應用,人們將會加快自身基因和其它他生物的基因的研究進程。未來利用生物基因技術來改良農作物,利用基因技術來培養人類器官,利用基因技術來消滅害蟲都即將實現。
與全球蒸蒸日上的生物大數據創新發展熱潮相比,中國的研發及應用才拉開帷幕。我國有四大方面非常欠缺:其一,國內現有的生物大數據分析能力雖然與歐美相差不大,但是在數據分析構架、軟件系統與先進的IT技術接軌上有待提升。其二,國外在生物大數據領域的領先人才多,盡管我們也有國際頂級刊物上發表的論文和成果,總體而言,國內高水準團隊還是少。其三,歐美講求成果應用,層出不窮的分析軟件可被實驗室、臨床、產業多方應用。其四,在生物大數據理論研究、標準制定和廣泛應用上,中國都亟待全面跟進。(責任編輯:西西 來源:互聯網周刊)