|
|
科學大數據的認識
作為大數據的一個分支,科學大數據正在成為科學發現的新型驅動力,引起有關國家和科技界的高度重視。歐盟提出“科學是一項全球性事業,而科研數據是全球的資產”的理念。美國的“從大數據到知識”計劃、歐盟的“數據價值鏈戰略計劃”、英國的“科研數據之春”計劃、澳大利亞的“大數據知識發現”項目、歐洲“地平線?2020”計劃的“數據驅動型創新”課題,均聚焦于從海量和復雜的數據中獲取知識的能力,深入研究基于大數據價值鏈的創新機制,倡導大數據驅動的科學發現模式。大數據的影響已觸及自然科學、社會科學、人文科學和工程科學的各個研究領域,不同領域的大數據研究中心陸續成立。我國部署了一系列大數據科技項目,組建了不同研究方向的大數據實驗室,中國科學院推出了“科學大數據工程”計劃。
科學大數據具有數據密集型范式的特點,它具有數據的不可重復性、數據的高度不確定性、數據的高維特性、數據分析的高度計算復雜性等特征。利用大量數據的相關性可取代因果關系和理論與模型,基于數據間的相關性能夠獲得新知識、新發現。比如,早在?1609?年,第谷?×布拉赫的助手約翰尼斯?×開普勒從布拉赫對天體運動的系數觀察記錄中發現了行星運動定律,并發表了偉大的著作《新天文學》;又如,歐洲大型強子對撞機幫助物理學家檢驗關于不同粒子物理和高能物理理論的猜想,并且確定了希格斯玻色子的存在;再如,大數據使基因組學的科學發現成為可能;還如,時空大數據在全球環境研究變化中正發揮重大作用。
越來越多的科學發現證明,大科學裝置是人類認識自然世界的重要手段。對地觀測衛星、大型望遠鏡、大型強子對撞機、高通量科學儀器、傳感器網絡等一系列大裝置的成功運行,使得科學大數據與大裝置和大科學間的關系越發密切。近年來,我國的大裝置諸如?500?m?口徑球面射電望遠鏡、系列空間科學衛星等的問世,為通過科學大數據認知大自然提供了強大的基礎。為滿足龐大且日益快速增長的科學大數據的應用需求,迫切需要建立一些能夠共享數據、算法、模型的開放系統,以此實現對已有數據的科學分析和集成應用。一個典型的例子是,2017?年?10?月,歐洲航天局“哨兵?-5P”衛星發射后,每天獲取近?2?000?萬條空氣污染物及氣體的觀測數據,其數據獲取量是前期任務的?10?倍以上。按照目前的處理速度,一臺計算機需要?1?200?年才能處理完?300?萬景全球衛星影像。而基于云計算設施,可在?45?天內完成相同處理任務,足見重大基礎設施的重要性。
真正實現科學大數據的大價值尚面臨著一系列技術挑戰。在數據規模、數據增速、數據類型、數據質量、數據價值等方面給科學大數據處理技術與方法提出了新的科學技術問題和方向。
以上主要體現在?5?個方面:①數據存儲管理方面??茖W大數據本身固有的特征亟待面向海量、非結構化或半結構化數據高效存儲管理的數據庫。②數據分析方法方面。數據產生和數據分析過程的分離使得數據噪聲增多,問題驅動的研究方式逐漸被數據驅動的研究方式所代替。③模型和算法方面。隨著半結構化、非結構化數據比重的逐漸增多,針對該類數據的特征學習方法逐漸超越并取代傳統的數據模型和算法。④計算體系結構方面。新型存儲器件和計算器件不斷涌現,使得通用處理器和單一體系結構的單機逐漸過渡為專用處理器、多核和分布式大規模異構集群。⑤計算和服務方面。以互聯網為媒介的云計算模式和分布式高性能數據中心逐漸成為大數據處理的新型模式。
中國科學院正在開展科學大數據研究的一些實踐。如正在進行的中國科學院戰略性先導科技專項(A類)“地球大數據科學工程”,地球大數據是一種典型的科學大數據,是具有空間屬性的地球科學大數據。該專項力求突破超大規??缬蚍植际劫Y源技術瓶頸問題,有效推動地球大數據技術創新、聚合多時空數據管理與關聯融合以及問題導向數據挖掘與分析,以達到只要有終端和互聯網,任何人在任何地點都可以享受到地球大數據提供的多樣服務,實現重大科學發現和一站式全方位宏觀決策支持服務的目的。
又如基于科學大數據的國際科學計劃。我們于?2016?年發起的“數字絲路”(DBAR)國際計劃,就是要實現大數據匯集、大數據服務、大數據分析和大數據呈現支撐,形成“一帶一路”科學大數據平臺。這個為期?10?年的科學計劃,將為“一帶一路”可持續發展、糧食安全、生態環境保護、氣候變化監測、災害風險應對,以及文化—自然遺產保護與發展等提供科學決策。
再如基于科學大數據的研究項目。聯合國設立了一項名為“全球脈動”的計劃,其使命之一是用大數據應對氣候挑戰。2014?年,在聯合國氣候變化峰會召開之際,來自?46?個國家的大數據應對氣候變化項目參加了獎項競爭“挑戰”,最終?9?個項目獲得不同的獎勵。我們的“對地觀測大數據應對全球變化”研究項目入選其中,顯示了空間對地觀測大數據在氣候變化研究中的作用和價值。
科學大數據正深刻改變傳統的科研模式,正驅動現代科學研究的迅猛發展??茖W大數據正在為科技創新帶來大機遇。作為少量依賴因果關系,而主要依靠相關性發現新知識的新模式,科學大數據已成為繼經驗、理論和計算模式之后的數據密集型科學范式的典型代表。