<li id="44aaa"><tt id="44aaa"></tt></li>
<li id="44aaa"></li>
  • <li id="44aaa"></li><li id="44aaa"></li> <li id="44aaa"></li>
  •  
     

    科學大數據管理技術與系統

    發布時間:2018-09-07 11:51:11  |  來源:中國網·中國發展門戶網  |  作者:黎建輝 李躍鵬 王華進 陳明奇  |  責任編輯:趙斌宇
    關鍵詞:科學大數據,融合查詢,流水線,數據共享,彈性伸縮

    科學大數據應用場景及管理需求

    科學大數據的應用場景及典型特征

    科學數據是科研活動的輸入、輸出和資產,是證實或者證偽科學發現或科學觀點事實、證據或者論證推理的基礎。它包括數字化觀測、科學監測等來自儀器設備或傳感器的數據,計算模擬與模型輸出的數據,對情景或現象的描述,對行為的觀測或定性描述,以及用于管理或者商業目的的統計數據等。目前科學大數據普遍存在于各個領域的科學研究,尤其在天文學、高能物理、微生物學等大科學領域,科學大數據的應用場景尤為明顯。

    在天文學領域,中法合作伽馬暴探測天文衛星SVOM?的關鍵地面設備?GWAC?的每個相機?15?s?內會產生?32?MB?的天區圖,并于下一個天區圖產生之前完成點源提取、交叉認證等操作,最終在?3—5?s?內完成?100?萬—10?000?萬行星表數據的插入,10?億—100?億行星表數據的?JOIN?運算。

    在高能物理領域,歐洲核子物理研究組織構建的大型強子對撞機(LHC)每秒進行?6?億次碰撞實驗,產生?6?PB?事例數據,經事例篩選后存儲大約?1?GB?實驗數據。目前?LHC?產生的實驗數據已超過?200?PB,未來?5?年?LHC?產生的數據將會超過?1?EB,事例數將達到千萬億級別,需在?10?s?內完成百萬分之一的事例篩選操作。

    在微生物學領域,中國科學院微生物研究所世界數據中心(WDCM)對?Taxonomy、GenBank、Gene?等?36?個數據源進行實體識別、歧義消除、本體構建等數據處理操作,構建了包含?830?萬個節點、1.3?億條邊的知識圖譜結構。預計未來?5?年內,WDCM?還將匯聚開放生物資源、文獻、序列和疾病等數據,在?10?000?多個數據源中構建?100?億條關聯的知識圖譜數據,并要求?1?s?內完成?100?億條關聯數據的?6?步關聯查詢。

    自?2011?年麥肯錫年度總結報告中提出“大數據”概念以來,學術界和工業界對大數據定義一直存在爭議,這些爭議主要來自不同領域中大數據的特征體現。目前學術界公認大數據具有“4V”特征——體量大(volume)、生成快(velocity)、多樣性(variety)和密度低(value),科學大數據應用場景充分體現了這“4V”特征,并具有以下獨特的性質。

    科學發現的準確性建立在海量實驗數據的重復計算驗證之上。例如,“上帝粒子”和暗物質發現的正確性經過了對數百?PB?量級數據的多次重復計算,多次驗證重復出現同一結論時才能發布結論。

    短時間內科學實驗會產生大量觀測數據并進行流程化處理,實驗數據會持續進入持久化存儲設備進行長周期存儲。例如,GWAC?在?15?s?內完成?40×32?MB?天區圖的點源檢測、入庫等操作,產生的所有數據將永久存儲。

    科學現象觀測的量化指標存在圖像、語音、時間序列等形式,數據分布在不同國家和機構中,科學研究需要整合這些多源異構數據。例如,WDCM?整合?36?個包括文本、網頁、醫療記錄在內的數據源完成知識圖譜構建。

    科學數據來自大科學裝置、互聯網、國家機構等,數據與國家利益和個人隱私相關,數據共享和挖掘分析會產生更大的社會推進作用。例如,“數字絲路”(DBAR)國際科學計劃涉及“一帶一路”沿線?65?個國家共享的地理、農業、社會輿論等數據,挖掘分析這些數據可為地區、國家的決策提供重要參考,然而如何分享成果收益、保護數據隱私是該計劃面臨的一個重要問題。

    科學大數據的這些性質對數據管理系統提出了巨大挑戰。

    <  1  2  3  4  5  6  7  >  


    返回頂部
    午夜无码福利18禁网站