數智驅動的空間科學實驗研究:AI4S范式下的新探索
中國網/中國發展門戶網訊 人工智能(AI)技術的迅猛發展正催生出科學發現的全新范式,極大地促進了對各種空間和時間尺度下自然現象的理解,從而推動了科學的進步與創新。
隨著AI的不斷演進,新的科學研究范式AI4S(AI for Science)的崛起為科學研究開辟了新的道路。特別是在AI4S范式下的空間科學實驗領域的研究,將有力促進空間科學實驗領域取得重大科學成果,推動AI與空間科學交叉學科的繁榮發展。
本文聚焦中國空間站空間科學實驗(以下簡稱“空間科學實驗”)領域,在回顧AI4S在空間科學實驗領域發展的基礎上,深入分析了AI4S在微重力條件下空間科學實驗多模態數據智能表征、復雜空間現象的模式識別、領域知識的智能提取及多來源、跨學科數據融合分析等方面所面臨的問題和挑戰。針對這些挑戰,本文圍繞數智驅動在空間科學實驗數據模式挖掘、領域知識發現與推理、跨學科認知智能,以及大模型構建與應用等方面提出AI4S在空間科學實驗領域的發展與思考。期望通過加強領域優勢、建立開放生態等舉措,共同推動空間科學實驗領域大數據挖掘與智能認知的不斷發展。
我國空間站空間科學實驗領域研究概況
中國空間科學與應用技術蓬勃發展,已開展并將持續開展一系列空間科學與應用任務和計劃,產生的空間科學數據與日俱增,并呈迅猛增長態勢。在AI4S范式的背景下,結合微重力條件下空間科學實驗的領域數據特點,充分挖掘空間科學實驗數據蘊含的高價值信息,將有力促進科學發現與認知發展。
多學科大規模的先進空間科學實驗項目
作為空間科學研究發展的重要陣地,中國空間站是我國未來10—15年規模最大的空間綜合研究實驗平臺,將建成國際先進水平的國家太空實驗室,高效開展體系化的空間科學與應用研究和新技術試驗,不斷產出重大科技成果,持續獲取綜合應用效益。作為我國航天史上規模最大、長期有人照料的空間實驗平臺(圖1),中國空間站在空間生命科學與生物技術、微重力流體物理與燃燒、空間材料科學、空間基礎物理等多個科學領域,支持開展近千項先進性和前瞻性研究項目,將獲取海量、多源、高價值的科學數據,為開展AI賦能的跨學科智能認知提供基礎。

空間實驗全周期多來源多模態大數據資源
中國空間站科學實驗項目獲取的數據產品種類超2 000種,數據體量預計將達近百PB級。數據資源具有全周期多來源、多學科跨領域、多模態多角度等特點。
全周期多來源海量空間科學實驗數據??臻g科學實驗覆蓋地基培育實驗、地面匹配實驗、在軌微重力環境下空間實驗、天地同步比對實驗、地面返回實驗等全周期的空間科學實驗過程和階段,并采集、處理、分析、存檔和共享相應階段和過程的實驗數據,以及來自地面鏡像平臺實驗數據、數字孿生數據和微重力模擬實驗數據等來源廣泛、長時間獲取的海量、豐富數據(圖2)。
多學科跨領域數據??臻g科學實驗數據涵蓋空間生命科學與生物技術、微重力流體物理與燃燒科學、空間材料科學、空間基礎物理等多學科領域的實驗數據,涉及覆蓋面廣且多樣(圖2)。

多模態多角度數據??臻g科學實驗數據包含圖像、視頻、語音、文本、數值等。其中,圖像數據又包含可見光、熒光、紅外、X射線、顯微等涵蓋多種模態多樣形式。如燃燒科學實驗柜、流體科學實驗柜等實驗柜,還設置了多角度的觀測設備對同一實驗過程進行多個角度的同步觀測。
數智驅動的空間科學實驗研究
基于中國空間站的空間科學實驗大數據作為信息的重要載體,蘊含了空間科學實驗領域內在規律、模式與知識。面向空間科學實驗大數據開展數據挖掘與智能認知的研究,將推動空間科學實驗領域新理論、新方法與新知識的高效產出??臻g科學實驗領域內的跨學科合作,學科內知識的交叉融合,將加速領域內一般性規律的重大科學發現,也將推動整個空間科學實驗領域朝著更加開放、協同和智能化的方向邁進,對空間科學實驗研究的新模式探索與高質量發展具有重要意義。
空間科學實驗領域AI4S研究的問題與挑戰
空間科學實驗領域AI4S的研究旨在聚焦探索AI與空間科學實驗領域的深度融合,利用AI技術學習、模擬、預測和優化空間科學實驗領域各種現象和規律以解決各種科學問題,構建以AI支撐基礎和前沿的空間科學實驗數據研究的新模式,加速空間科學實驗領域科研范式變革和能力提升,從而推動領域科學新發現和創新??臻g科學實驗領域AI4S研究面臨的問題與挑戰如下。
空間科學實驗多模態數據信息提取的復雜與困難,使得數據表征、特征融合更具挑戰??臻g科學實驗開展過程中,針對特定研究領域的實驗對象產生的實驗數據,往往以不同的模態形式存在,如物理量參數、圖像、視頻等數據,這些數據都隱含了研究對象在空間特殊環境和實驗條件下的科學規律。多模態表征通過利用多模態數據之間的互補性,剔除模態間的冗余性,從而學習并提取不同模態數據的特征表示??臻g科學實驗產生的多模態實驗數據的復雜處理方式、天地差異、異質性等因素,使得構建全面準確的表征極具挑戰性(圖3)。多模態語義對齊識別多模態信息之間的跨模態連接和相互作用。例如,分析空間科學實驗的物理參量和圖像視頻數據時,需要將特定的物理參量與圖像或視頻對齊。模態之間的對齊在技術上存在很多困難,因為不同模態之間可能存在隱含關聯與長距離的依賴關系,涉及模糊的分割,并且可能是一對多、多對多的關聯性,需要處理不同模態之間的歧義,以精準匹配跨模態信息,并最大程度降低信息損耗。多模態信息融合抽取自空間科學實驗不同模態的信息,整合成多模態特征信息,利用多個來源不同模態的互補信息執行分析與預測。不同模態的信息可能具有不同的預測能力和噪聲拓撲,一方面不同模態之間的關聯信息有互補作用,另一方面模態自身的特異性又有很強的標識功能。同時,根據待融合模態信息的特點可以分為異質多模態融合(如文本與圖像)和同質多模態融合(如深度圖與灰度圖)等多種情況,獲取不同模態實驗數據間的共性和模態內的特性信息,具有極大的計算復雜度。

多約束條件下的空間科學實驗數據多樣化與復雜關聯,使得模式識別與分析變得更為困難。在空間科學實驗領域,進行科學實驗時受到多種約束條件的影響,包括宇宙低溫、強輻射、微重力等多重因素。這些約束條件導致獲取的實驗數據呈現出極大的多樣性和復雜性,使得數據的模式識別和分析變得困難。一方面,需要應對數據中的噪聲、不確定性及多模態數據之間的復雜關聯。在處理這些多重約束下的數據時,科學家們面臨著挑戰,需要開發出具有魯棒性的算法,以確保準確性和全面性,推動對復雜空間實驗現象的深入理解和科學實驗數據的有效分析。另外一方面,長期微重力條件下科學實驗數據的分析挖掘不僅需要從復雜數據中發現模式與關聯,更需要結合不同的環境變量及實驗變量、先驗知識輔助支持有意義、有價值的模式挖掘與科學發現。因此,如何將這些控制變量、先驗知識進行有效編碼,融入深度神經網絡,支持多元數據的模式挖掘與關聯建模面臨挑戰。
多來源、跨學科知識關聯復雜,使得跨領域知識交叉融合分析極具挑戰。在空間科學實驗研究領域,多學科交叉的背景使得AI4S有機會打破學科間的壁壘,推動不同領域間的深度融合與協同創新。例如,流體力學中常用的粒子圖像測速方法??稍诳臻g生物實驗中用于追蹤細胞的運動,也可在微重力物理實驗中用于追蹤流化床內顆粒的運動。然而,不同學科及來源的數據和知識既具有各自獨特的結構體系,又有錯綜復雜的關系,這使得借助AI技術實現數據的有效關聯和知識的深度融合成為一項至關重要的挑戰。
具體而言,空間科學實驗研究的跨領域信息融合面臨3個難點:異構數據標準化。不同領域的空間科學實驗數據具有迥異的結構和內涵。為促進數據共享,需要建立統一的數據標準,并致力實現高效的異構數據標準化。多源數據關聯??臻g科學實驗分析涉及多來源的數據:傳感器測量值、視頻圖像、文獻書籍等。多源數據之間的關系(如燃燒實驗中視頻像素值與溫度值的對應關系)復雜、隱晦而多變,難以被通用算法所預測。需要結合科學實驗數據的物理模型與AI的學習能力,實現準確高效的數據關聯分析??珙I域知識關聯。一方面,需要構建領域知識圖譜,刻畫學科本身的知識體系;另一方面,需要消解多學科之間的專業隔閡,揭示跨領域知識的內在聯系與相似性。例如,空間流化床實驗的科學家希望實現對大量顆粒的群體追蹤,需要AI模型提供其他領域內相關的知識和方法。而大語言模型通過將海量數據信息映射至共同的語義空間,有能力通過語義相似性、發掘不同學科知識之間的聯系。
空間科學實驗領域發展與思考
空間科學實驗數據模式挖掘與分析
針對空間科學實驗領域的數據模式挖掘與分析,重點包括時序數據模式挖掘和科學實驗圖像/視頻智能分析兩方面。
在時序數據模式挖掘方面??臻g科學實驗載荷產生海量結構化遙測時序數據,通過整合不同來源的數據進行挖掘,利用基于深度學習的數據預測模型,結合在線學習方式實時調整模型,可以深入分析實驗載荷系統的關鍵參數和重要的特征表征因子,揭示復雜模式、趨勢和關聯,提高實驗載荷故障風險預測的能力。同時,融合領域知識圖譜進行因果關系挖掘,提高模型結果的可信度和可解釋性,為故障根因定位和復雜現象理解提供重要技術支持。
在空間科學實驗圖像/視頻智能分析方面。通過研究實驗目標檢測、實例分割、實驗目標追蹤、實驗目標行為和模式分析及實驗目標三維重建等眾多關鍵技術,可以實現對空間生物、動物、植物實驗圖像的高效分析和理解。這些技術支持了定量分析和可視交互分析,為科學家提供了豐富的數據基礎和更立體的觀察視角。結合領域知識的增強,可以實現更高層次的推理與實驗目標行為、生長等模式挖掘,進而推動空間科學實驗領域的深入研究和創新發現。
通過整合時序數據模式挖掘和科學實驗圖像/視頻智能分析,結合領域知識增強方法,可以實現對領域新知識的發掘,推動空間科學實驗研究和創新的發展。
空間科學實驗領域知識的發現與推理
空間科學實驗海量數據中蘊含了豐富的、散亂的、待挖掘的領域知識??臻g科學實驗領域知識的發現與推理旨在整合多源數據,融合分析多源數據中的關鍵信息并智能提取領域知識,建立領域知識體系,以促進更全面的空間實驗現象理解和揭示深層次規律。
針對領域數據多源異構特性,基于統一表征學習方法,將在軌實驗、地面培育與同步實驗、地面鏡像等產生的多源數據進行表征信息提取,將不同的特征映射到統一的知識表示空間中。結合實體識別、關系抽取等領域知識抽取方法,提取空間科學實驗領域知識,并基于知識表示、知識融合、知識推理方法,完成不同來源知識的消歧和對齊,將對齊的多源數據和獲取的領域知識從概念層和實例層對齊后再次融合到全局視圖的知識圖譜中,構建空間實驗領域知識圖譜,建立領域知識概念和體系。同時,基于已有知識基礎,利用知識推理技術方法推導出新的未知的知識,揭示未知領域的潛在知識與關聯信息,促進空間科學實驗領域新的科學發現。
空間科學實驗多來源、跨學科數據智能融合與協同創新
在空間科學實驗研究中,信息的標準化共享、數據的關聯分析與知識的融合推理共同構成了跨領域協同創新的基礎。多源異構數據標準化與治理。為確保數據的標準化共享,需要構建空間科學實驗領域統一的數據標準和規范,明確各類數據的格式、結構、存取方式等。在此基礎上,結合AI算法與模型,實現多源異構數據的自動標準化與高效治理?;贏I的多源數據分析。結合人類認知與AI技術,通過圖像、可視化等手段展示數據,并提供AI算法的演算結果,揭示多源數據中復雜的關系,引導科學家深入探索實驗規律??鐚W科知識融合與推理。利用AI模型從科技文獻中提取知識實體與關系,構建學科知識圖譜,通過算法匹配不同圖譜中的相似實體與關系,揭示各領域科學原理與思路方法的相似性,以促進跨領域的成果共享與協同創新。
空間科學實驗領域大模型的應用
領域大模型能夠提升領域數據特征表示的能力。通過構建統一的、跨場景、多任務的多模態空間科學實驗領域基礎大模型,建立空間科學實驗物理量、文本、圖像、視頻等多模態數據間的語義關聯,挖掘潛在關聯關系,探索多模態科學實驗數據分析與理解的技術前沿,為科學實驗大數據挖掘、知識圖譜構建、圖像/視頻智能分析與理解、智能輔助決策等提供可計算的關于多模態數據的結構化表示,為面向空間科學實驗領域多模態數據的智能化分析與應用提供有效的技術支撐。構建強大的空間科學實驗分析大模型基座,圍繞空間科學實驗領域大模型可以構建“平臺協作式”的AI4S科研模式,適應不斷變化的數據和實驗場景,大幅提高科學研究效率,有效提升實驗數據處理、知識庫構建、復雜模式挖掘、可視化與可視分析等能力,促進多學科知識深度交叉融合和重大科學發現。
基于大模型的圖像智能分析。中國空間站將在空間生命科學與生物技術、微重力流體物理與燃燒科學、空間材料科學、微重力基礎物理等領域展開上千項研究項目。大模型在圖像智能分析應用中具有重要作用,助力“作坊式”個性化的研發模式向“平臺協作式”轉型。大模型通過在海量圖像/視頻數據上進行預訓練,實現通用特征提取網絡,為特定實驗專業需求的子任務提供智能輔助分析支持,實現下游多任務的靈活自適應,降低單一任務的數據標注成本和算法研發周期。例如,基于大模型的空間生命實驗對象實例分割算法,依賴海量領域數據的預訓練,有望實現零樣本或少樣本的新實驗數據分析的應用。
基于大模型的領域知識圖譜。大模型可以增強空間科學實驗領域知識圖譜的構建與應用能力。利用大模型的自監督表征學習空間科學實驗有關的多模態數據,實現多源數據的整合、信息互補和語義全面表達,并進行實體、關系、事件等領域知識提取,構建空間科學實驗領域內的知識圖譜;知識圖譜智能問答、知識關聯分析等應用將提高知識圖譜智能化應用的性能和效果,為解決領域專業性強、復雜度高的知識發現與應用問題奠定堅實基礎。
基于大模型的信息關聯與跨模態檢索??臻g科學領域實驗包含文本、圖像、視頻、語音等多模態數據,使得科學家難以高效搜索感興趣的信息。大模型,尤其是基于對比學習的模型如CLIP(contrastive language-image pretraining)等,通過自監督學習方式構建,能夠統一表征空間科學領域實驗多模態數據語義信息,提高數據跨模態檢索性能,這有助于科學家從海量數據中快速、準確地找到有價值的信息,有效提高數據利用效率。
基于大模型的空間科學實驗載荷在軌運行故障預測?;诰哂锌臻g科學實驗載荷故障風險預警與根因定位能力的基礎大模型,利用其強大的數據表征、整合和分析能力,深入挖掘實驗載荷多源工程遙測數據之間的關系,識別異常模式和變化趨勢。通過大模型在語義理解、數據整合方面的技術優勢,提高科學實驗載荷的運行故障預測精度與效率,保障各空間科學實驗載荷的安全、穩定在軌運行。
基于大模型的空間科學實驗數據可視化與可視分析應用。大模型結合自然語言理解與生成能力,使科學家能夠通過對話方式驅動高效的數據檢索與處理。結合可視分析,通過自然語言描述生成可視化結果,形成可視分析系統。利用“CUI+GUI”的模式發揮大模型在科學家意圖理解和數據智能分析方面的能力,充分利用可視分析在數據直觀展示和關聯分析方面的獨特優勢,是一種創新且高效的空間科學實驗數據分析模式如在微重力空間科學實驗領域將發揮重要作用。
以上有關應用示例展示了大模型在空間科學實驗領域的多個方面的潛在作用,為科學研究、實驗數據分析和實驗載荷在軌運行決策等提供了新的可能性和技術支持。
總結與展望
中國空間站是我國最大的空間綜合研究實驗平臺,將開展近千項先進性和前瞻性研究項目,并獲取海量、多源、高價值的科學數據,為開展AI賦能的跨學科智能認知提供基礎。本文聚焦中國空間站空間科學實驗領域,總結了領域的多學科優勢以及大數據特點,分析了領域所面臨的問題和挑戰,提出了發展與思考。最后,期望通過加強領域優勢、建立開放生態等舉措,共同推動空間科學實驗領域大數據挖掘與智能認知的不斷發展。
空間科學實驗領域研究已成為AI4S領域的重要前沿陣地??臻g科學實驗作為AI4S科學的重要領域,擁有大規模實驗數據,尤其隨著中國空間站建成國家太空實驗室,將長期在軌開展各個學科領域的空間科學實驗,蘊含著眾多的機遇,在科技前沿方面具有顯著的優勢??臻g科學實驗領域是AI4S的重要試驗陣地??臻g科學實驗領域橫跨多個學科,包括空間生命科學與生物技術、微重力流體物理與燃燒科學、空間材料科學、微重力基礎物理等,為AI4S范式的研究提供了豐富的試驗場;空間科學實驗領域數據生態將為AI4S的研究提供重要支持。該領域的數據通過統一生態平臺下載和分發,呈現較好的統一性、規范性。相對于地面各科學領域數據共享程度不足的問題,空間科學更容易構建統一的面向AI就緒(Ready4AI)的數據中心,為新型AI范式的探索提供有力支持;空間科學實驗的跨學科協同將有力推動AI4S的發展??臻g科學實驗領域屬于系統工程,需要載荷專家、技術專家和科學家共同協作,團隊具備跨學科的協同優勢,更有利于推動新型科研范式的探索。因此,以AI驅動的空間科學實驗研究在AI4S中擔當著先鋒角色,為推動科學研究和應用領域的創新發展貢獻著獨特的力量。
數據驅動的空間科學實驗研究需要空間科學實驗和AI領域的交叉人才??臻g科學實驗領域科學家與AI專家的專業背景、學科差異大,相互理解程度低,彼此互相促進的障礙仍然較大。但是,AI4S屬于交叉學科,需要專業領域科學家提出科學問題,AI專家發揮技術能力,同時還需要探索已有知識如何融入智能模型,抽象出AI擅長的科學分析場景,相互協作,才有可能在科學領域促進認知智能的涌現。
構建AI4S的空間科學實驗領域開放共享生態的必要性。近年來,AI領域的技術發展之所以如此之快,很大程度得益于其開放的大規模公開數據集,以及開源的算法研發模式。但是,AI在科學智能領域存在一定瓶頸,這與科學數據更加專業、準入門檻更高、通用性更低有一定關系。為了促進AI4S領域的發展,構建開放共享數據生態十分必要,這有助于領域科學家、AI專家更便捷獲取數據,更多的團隊參與進來,共同促進、加快領域的發展十分有益。此外,AI算法的研發需要更多的數據、更大的算力支持,單一的科學實驗室較難滿足數據與資源的需求。通過構建基于云計算的大算力基座、海量豐富場景數據、開源共享協同算法的空間科學實驗研究生態和支持平臺,促進傳統“作坊式”的科研模式向新一代AI4S范式轉變。
(作者:李盛陽、劉康、劉云飛,中國科學院空間應用工程與技術中心 中國科學院太空應用重點實驗室 中國科學院大學航空宇航學院;賴楚凡,中國科學院空間應用工程與技術中心 中國科學院太空應用重點實驗室?!吨袊茖W院院刊》供稿)







