• 首頁 > 分享 > 科學家已找到大數據中提取有用數據的方法 用于代謝組學的研究

    科學家已找到大數據中提取有用數據的方法 用于代謝組學的研究

    科學家已找到大數據中提取有用數據的方法 用于代謝組學的研究-智醫療網圖解:代謝組學數據關聯十分復雜。但現在或許不像以前那么復雜了。來自華盛頓大學科學家可以將復雜度下降到右圖所示程度。來自:Gary Patti實驗室

     

    以前,科學家對人類基因組中的基因數量進行了猜測。一些科學家篤定基因數量范圍是在100,000個以上。在圣路易斯安娜州的華盛頓大學醫學院麥當勞基因研究機構猜測人類基因的最低數量為25,947。如果一旦人類基因組序列完成,這些猜測都能還原其真實性。

    近15年之后的現在,華盛頓大學的科學家發現了新型大數據類別稱之為代謝組學。據他們估計,一組數據中所含的代謝組數量僅為以前所估計的數據量的10%甚至不到。該研究于9月15日發表在分析化學期刊的網站上。

    像以往的基因組測序一樣,代謝組學試圖分析所有這些存在于樣本中的代謝物。但是與基因測序不同的是,代謝物不是由相同的物質塊所構建,具有更多的化學多樣性。我們所熟悉的代謝物比如葡萄糖和膽固醇等分子,大部分都是飲食的產物。因此,試圖確定人類代謝物的確切數量一直就是一個十分艱巨的挑戰。由于它對人類所攝入養分的過分依賴,一些科學家甚至認為這并不能算作一個相關問題來進行研究。

    科學家們對研究人類代謝物的興趣幾乎和研究人類健康的興趣一樣。最具代表性就是人類對糖尿病的分析研究大概可以追溯到幾個世紀之前。從20世紀60年代之后,對其他代謝物的檢測已經被用來診斷一些被廣泛稱為“先天性代謝錯誤”的疾病。所以代謝組學便是試圖測量所有人類產生的代謝物等等。但是最大的問題是:有多少種代謝物需要我們來測量?

    隨著質譜儀這類復雜設備的出現,代謝組學的研究方式也在發生變化。這些儀器就像很微小的器械一樣可以測量像糖一樣的分子的重量。通過使用數據庫和計算機,科學家可以把測量的重量轉換成化合物的名稱,如葡萄糖。

    十年前,當代謝組學逐漸成為主流時,科學家驚奇的發現典型代謝組學試驗中的信號數量大大超過了生物化學教科書中已知的代謝物數量。

    藝術與科學化學副教授兼該研究的資深負責人加里?帕蒂(Gary Patti)說:“當然,我們自然而然的假設數據庫中沒有返回匹配的大部分信號對應于未知的代謝物。”

    這種假設的含義是重大的:意味著目前有成千上萬種代謝物沒有被發現,比您的新陳代謝綜合圖中所包含的數量更多。

    Patti實驗室的博士后研究員Nathaniel Mahieu表示:“代謝組學檢測中發現數以萬計的信號是很正常的,目前為止,還沒有發現任何實驗中只有1,000到2,000個信號的。”

    Patti說:“其中最為關鍵的問題就是:所有這些代謝組學信號實際上對應的代謝物有多少?”

    Mahieu和Patti上周宣布,他們首次獲得了美國國家衛生研究院8年共計588萬美元的環境衛生資助,開發了新的實驗和計算方法來研究代謝組學數據。而且得出一個驚人的結論,他們發現,典型的代謝組學分析中的代謝物的實際數量可能是前面提到的十分之一,剩下大部分數據來自“噪聲”。數以千計的信號來源于污染,人造物和被稱為“簡并”的東西 – 這便使得一種代謝物出現了許多不同的信號時。研究小組還發現,一些代謝物顯示為150多個信號。

    Mahieu說:“事實證明,我們在大腸桿菌數據中看到的超過90%的信號基本上是噪音,這大大減少了我們之前所認為的未知代謝物的數量。”

    Patti說:“我認為這從現實角度提醒了我們代謝組學所研究的不同重量的代謝物并不能認為他們是不同代謝物。同時我相信這也是一件好事情,這意味著我們對代謝組學的認識更進一步。”至于下一步,Patti的實驗室打算將其技術擴展到人體樣本。“最終目標是對人類進行類似的實驗,”Patti說。 “我們這里的工作向前邁出了重要一步。”

    那么所有這些噪聲信號對其他進行代謝組學研究的科學家有什么意義呢?Patti實驗室已經開始在名為creDBle(creDBle.wustl.edu)的數據庫中建立“引用數據集”。他們希望這已舉措能夠促進其他研究代謝組學科學家的實驗。

    Mahaeu說:“代謝組學目前的研究方式效率十分低下,我們浪費了大量的時間來破譯最小的生物鑒別信號,我們希望creDBle中的這些參考數據集能夠幫助科學家避免一再反復的識別相同的噪聲信號,而且我們已經對那些信號進行了注釋。”

     

     

    發表評論

  • 野花视频