智能化科研(AI4R):第五科研范式
中國網/中國發展門戶網訊 人類早期的科研活動至少可以追溯到公元前6世紀的古希臘,以亞里士多德、歐幾里得為代表的思想家和科學家作出了重要貢獻?,F代科學研究開始于16—17世紀的科學革命,伽利略、牛頓是現代科學研究的鼻祖。20世紀中葉以前的幾百年間,科學研究的方法只有兩種:基于觀察和歸納的實驗研究(第一范式);基于科學假設和邏輯演繹的理論研究(第二范式)。電子計算機流行以來,計算機對復雜現象的仿真成為第3種科研方式(第三范式)。由于互聯網的普及引發數據爆炸,近20年來出現了數據密集型科學研究方式(第四范式)。
2007年1月,圖靈獎得主吉姆·格雷(Jim Gray)在他生前最后一次演講中,描繪了關于科學研究第四范式的愿景。他的報告題目是“eScience:科學方法的一次革命”,他把數據密集型科研看成eScience的組成部分之一,主要強調數據的管理和共享,基本上不涉及人工智能(AI)技術在科研中的作用?!按髷祿毙纬蔁岢币詠?,數據驅動的科研越來越受到重視。但單純的數據驅動有明顯的局限性,模型驅動與數據驅動一樣重要,兩者需要融合。
“科學范式”(scientific paradigm)是托馬斯·庫恩在其名著《科學革命的結構》中首先使用的術語,主要是指各個學科在一定歷史時期形成的對某種專業知識的見解與共識?,F在這個術語已成為很流行的熱詞,含義已經泛化。本文討論的“科研范式”是指從宏觀角度看到的科學研究方式。近幾年來,不少學者開始倡導第五科研范式。曾經大力宣傳第四科研范式的微軟研究院最近也在提倡第五科研范式,成立了新的AI4Science研究中心。2019年11月,筆者發起舉辦了第667次香山科學會議,會后在《中國科學院院刊》2020年第12期發表了《數據科學與計算智能:內涵、范式與機遇》綜述論文,文章中明確提出要開啟“第五范式”科學研究,指出“第五范式”不僅僅是傳統的科學發現,更是對智能系統的探索和實現,強調人腦與計算機的有機融合,并預言再過10—20年,“第五范式”可能逐步成為科學研究的主流范式之一。
現在還很難對第五科研范式做出嚴格定義,但其特征已逐步顯露出來,概括起來包括以下6點:人工智能全面融入科學、技術和工程研究,知識自動化,科研全過程智能化;人機融合,機器涌現智能成為科研的組成部分,暗知識和機器猜想應運而生;以復雜系統為主要研究對象,有效應對計算復雜性非常高的組合爆炸問題;面向非確定性問題,概率和統計推理在科研中發揮更大的作用;跨學科合作成為主流科研方式,實現前4種科研范式的融合,特別是基于第一性原理的模型驅動和數據驅動的融合;科研更加依靠以大模型為特征的大平臺,科學研究與工程實現密切結合等。
鄂維南等科學家將“AI for Science”翻譯成“科學智能”,這個術語已經開始流行,可作為第五科研范式定名與翻譯的借鑒,但智能化的科研不限于基礎科學研究,也包括技術研究和工程研究的智能化??茖W技術部和國家自然科學基金委員會啟動部署的“AI for Science”專項稱為“人工智能驅動的科學研究”,但在與實驗、理論、計算機仿真、數據驅動等范式名稱放在一起時,又顯得不夠精煉。在以上基礎上,本文將第五科研范式稱為“智能化科研”(AI for Research,簡稱“AI4R”),文字相對精煉一些,內容更廣泛,含義也更深刻。
智能化科研(AI4R):成功案例
數據驅動研究方式往往足夠快但不夠精確;而基于第一性原理的理論推演和計算方式算得準但不夠快,只能處理小規模的科學問題。近幾年,人工智能技術在生物、材料、制藥等領域的科學研究中得到廣泛應用,AI4R既可以提高科研效率,又能保證科研要求的精確性,成為科學研究的強大推動力。AI4R的成功案例很多,本文介紹與中國科學院計算技術研究所(以下簡稱“計算所”)有關的3個案例。
蛋白質三維結構預測。利用深度學習技術預測蛋白質的三維結構是AI4R的里程碑式的科研成果。到目前為止,AlphaFold 2已預測了超過100萬個物種的2.14億個蛋白質三維結構,幾乎涵蓋了地球上所有已知的蛋白質。AlphaFold 2不僅是結構生物學領域的顛覆性突破,更重要的意義是消除了科學家對人工智能認識上的障礙,照亮了AI4R前進的道路。過去即使計算機科學家非常精確地預測了蛋白質三維結構,也只認為是所謂“干實驗”成果,必須要生物學家做了“濕實驗”以后才會接受?,F在生物學家已能夠相信人工智能的預測,這是科學界的跨時代進步。在AlphaFold 2推出以前,計算所在蛋白質三維結構預測方面就曾經做出過國際領先的科研成果。
分子動力學模擬。中美合作的深度勢能團隊采用全新的“基于深度學習的分子動力學模擬”研究方法,將具有第一性原理精度的分子動力學模擬規模擴展到1億個原子,計算效率提升1 000倍以上。這是國際上首次實現智能超算與物理模型相結合,引領了科學計算從傳統的計算模式朝著智能超算方向前進。此論文的第一作者賈偉樂目前在計算所工作。2022年,他將分子動力學的計算規模提升至170億個原子,計算模擬的速度提高7倍,一天能夠模擬11.2納秒的物理過程,比2020年獲得戈登·貝爾獎的成果又提升1—2個數量級。
芯片全自動設計。2022年5月,計算所成功利用人工智能技術設計出全球首款全自動生成的32位第五代精簡指令集(RISC-V)中央處理器(CPU)——“啟蒙1號”。設計周期縮短至傳統設計方法的1/1 000,僅用5小時就生成了400萬邏輯門。這一創新成果是人工智能在復雜的工程設計領域取得的重大突破,預示著“AI for Technology”與“AI for Science”一樣,具有十分光明的前途。CPU設計的準確率要達到99.999 999 999 99%(13個9?。┮陨?;而若采用神經網絡方法,包括最近很熱門的大語言模型,都無法保證精度。計算所陳云霽團隊發明了用二進制推測圖(BSD)來表示電路邏輯的新方法,可以將一般布爾函數的描述復雜度從指數級降到多項式級?!皢⒚?號”的一個重要發現是,不只是基于神經網絡的語言大模型,類似決策樹的BSD也具有涌現功能。這一意外的發現引發了人們對神經網絡之外的智能技術的期盼,只要模型足夠復雜,其他的人工智能技術也可能涌現出意想不到的功能。
智能化科研(AI4R):向智能時代邁進中出現的新科研范式
科研范式隨著人類生產力的進步不斷演變。農業時代只有第一范式,工業時代開始流行第二范式,信息時代出現第三和第四范式?,F在人類處于信息時代的智能化階段,正在向智能時代邁進,智能化科研范式順應而生。
從1936年圖靈提出計算模型開始,計算機科學技術已經研究80多年了?,F在大家普遍認為,所有的計算機都是圖靈機的實現,其實圖靈模型主要是用來研究計算的不可判定性。1943年麥卡洛克(McCulloch)和皮茨(Pitts)提出了神經元計算模型,這個模型在可計算性上與圖靈模型是等價的,但對自動機理論而言,可能比圖靈模型更有價值。馮·諾依曼曾指出:“圖靈機和神經網絡模型分別代表了一種重要的研究方式:組合方法和整體方法。McCulloch和Pitts對底層的零件作了公理化定義,可以得到非常復雜的組合結構;圖靈定義了自動機的功能,并沒有涉及到具體的零件?!边@兩條技術路線一直在競爭,盡管神經網絡模型受到排擠打壓,但相關學者始終沒有停止研究。一直到2012年,Hinton等學者發明的深度學習方法在ImageNet圖像識別比賽中一鳴驚人,神經網絡模型才一下子紅火起來。
現在流行的神經網絡模型與McCulloch和Pitts提出的模型并沒有實質性的改變,能在圖像、語音識別和自然語言理解上取得重大突破,除了采用反向傳播和梯度下降算法外,主要是數據量大了幾個數量級,計算機的算力也增強了幾個數量級,量變引起了質變。馮·諾伊曼的著作《自復制自動機理論》中指出,“自動機理論的核心概念在于復雜性,超復雜的系統會涌現出新的原理”,并提出一個重要概念——復雜度閾值。低于復雜度閾值的系統,就會無情地衰退耗散,突破了復雜度閾值的系統,就會由于在數據層的擴散和變異作用而不斷進化,可以做很困難的事情。
現在的神經網絡模型有數千億甚至上萬億參數,可能已接近能處理困難問題的復雜度閾值點。神經網絡不是按照確定的算法實現圖靈計算,其主要功能是“猜測加驗證”?,F在流行的卷積神經網絡能夠用于猜下一個字是什么。猜測和計算是兩個不同的概念,基于神經網絡的機器更合適的名稱是“猜測機”,而不是“計算機”,其解決復雜問題的效率大大高于圖靈模型。神經網絡模型只是人工智能眾多模型中的一種,只要跨過復雜度閾值點,其他人工智能模型也有可能表現出超乎尋常的功能。智能化科研就是要讓各種人工智能技術在科研工作中大放異彩。
人工智能技術經過60多年的沉淀和積累,在數據和算力均足夠豐富的條件下,已經成為推動科研和生產的利器,爆發出前所未有的能量。盡管實現真正的通用人工智能還要走很長的路,但毫無疑問,智能化已經成為當今時代的主要追求。對時代的認識不能犯錯誤,錯過時代轉變機遇將遭受歷史性的降維打擊。
智能化科研(AI4R)的標志:機器涌現智能,人機物智能融合
第五科研范式的標志性事件是,在AlphaFold 2實現蛋白質結構預測和后來GPT-4表現出的令人驚艷的功能中,機器猜想都發揮了關鍵作用,說明大規模的機器學習神經網絡已涌現出某種程度的認知智能。盡管開發者并不能完全解釋機器的認知智能是如何產生的,但實踐已證明,在很多應用中,機器的猜測是正確的。人造的硅基產品涌現出超出常規計算和信息處理的認知智能,這是一個劃時代的變化。
所謂“涌現”,是指系統中的個體遵循簡單的規則,通過局部的相互作用構成一個整體時,一些意想不到的屬性或者規律會突然在系統層面出現,即“系統定量上的變化可以導致系統行為上的定性變化”。生命的形成,蟻群、鳥群的群體性行為,人腦的智慧,人類許多社會行為等都源自“涌現”。人們常說,21世紀是“復雜性科學的世紀”,而“涌現”就是復雜性科學最關注的主題。美國圣塔菲研究所1984年就開始探索科學和社會中的涌現行為,試圖創造一種統一的復雜科學理論來解釋“涌現”,但至今揭示“涌現”的機理仍然是一個開放性的科學問題。
機器具有人類解釋不清楚的“暗知識”,這對我們曾經固有的認識論是一次巨大的沖擊。有些學者認為,計算機只能機械地執行人編寫的程序,不可能有智能。但上千億自動生成的參數構成的人工神經網絡已經是一個有“認知”能力的復雜系統,其涌現能力不是程序員編程時直接輸入的,是機器學習形成的復雜系統自己具有的。所以我們應當承認,人有人智,機有機“智”。人機互補是第五科研范式的主要特征之一,今后要爭取做到人類和人工智能“各顯其智,智智與共”。
這里所說的“機器的認知能力”不同于人的認知能力,“機器理解”也不同于人的理解。所謂“機器理解”是指,如果機器通過學習形成某些規則,可以實現一個符號空間到意義空間的映射,就說它對符號空間具有一定的理解能力。例如,機器翻譯可以不懂語義,但能將中文“映射”到其他語言,哪怕是沒有接觸過的小語種。人工智能天氣預報模型可以不懂氣象理論,但能做出比數值天氣預報還精確的預報。這可能是一種新穎的“理解”形式,一種能夠實現預測的理解形式。如同我們可以說飛機具有與鳥類不同的飛行能力一樣,不必糾纏機器的“理解”是否與人類一樣。理解和意識有不同層次的內涵,有理解能力未必有自我意識。將理解能力與自我意識剝離,有助于降低人們對人工智能莫名其妙的恐懼。對機器學習形成的大模型是否會具有類似人腦的涌現能力,不同的學者有不同的判斷。Hinton等學者始終堅信,人工神經網絡的神經元雖然簡單,但復雜的機器學習網絡與人類的大腦有某種程度的相似性。正是由于少數有前瞻眼光的科學家的這一份堅信,默默耕耘幾十年,才達成今天人工智能技術的大突破。筆者曾問過ChatGPT和“文心一言”:“機器是不是真的具有智能?”ChatGPT回答:“機器確實擁有自己的智能”?!拔男囊谎浴被卮穑骸澳壳暗闹髁饔^點認為,機器暫時沒有真正的智能?!睓C器的回答與創建者選擇學習內容的意向有關,也許,中美兩國學者對機器智能的不同認識是導致我們在大模型研發上落后的背后原因之一。
智能化科研(AI4R)的主要目標:有效應對難解的組合爆炸問題
傳統科學不但能揭示自然界的一些奧秘,而且能解決很多困難的工程問題,例如大飛機的制造。一架大飛機有數百萬個零部件,因為我們明白每個零件的作用,也理解它的整個系統的空氣動力學原理,其復雜性已經在我們的掌握之中。但對于大腦,即使我們理解了每一個神經元,仍然不能解釋意識和智慧是如何產生的,因為復雜系統的功能和性質并不是其組成部分的線性之和。在生物、化學、材料、制藥等許多領域,科學問題中假設空間非常大,例如小分子候選藥物的數量估計有1060種,可能成為穩定材料的總數多達10180種,逐個篩選完全不可行。這就是我們常說的“組合爆炸”,數學家稱之為“維度災難”。我們有了打開科學大門的鑰匙,卻沒有力氣把沉重的大門推開。經過300多年的科學探索,知識之樹底層的果實差不多都摘光了,留在樹尖的果實幾乎都是難啃的復雜之果。過去4種科研范式難以解決的組合爆炸問題是第五范式的主要用武之地。
人工智能的目標不是一味地模擬語音、視覺、語言等人類自身的基本技能,而是要讓人工智能擁有和人類一樣認識世界和改造世界的能力。人腦中并沒有確定性的算法,而是采用抽象、模糊、類比、近似等非確定的方法來降低認知的復雜性。馮·諾伊曼早就預言,“信息理論包括兩大塊:嚴格的信息論和概率的信息論。以概率統計為基礎的信息理論大概對于現代計算機設計更加重要?!苯鼛啄隀C器學習的巨大進步,主要是采用了概率統計模型,對我們不完全了解的問題進行建模分析。機器學習提供了跨尺度建模的工具,能跨越所有物理尺度進行建模和計算,通過試錯和調整,不斷完善所獲得的結果,追求統計意義上最終結果的可接受性。統計意義的正確性與確定性計算程序的嚴格正確性是解決復雜問題的不同思路。人工智能研究的新近發展體現一種趨勢:放棄絕對性,擁抱不確定性,即只求近似解或滿足一定精度的解。這或許是這次人工智能“意外”取得成功的深層原因。
我們把第五科學范式稱為智能化科研,原因之一就是,只有突破還原論和經典計算范式的思想枷鎖,采用智能化的新范式,才能應對輸入、輸出和求解過程的不確定性。問題的復雜性隨計算模型的改變而改變。人們常說的NP困難問題是對圖靈計算模型而言的。自然語言理解、模式識別等NP困難問題在大模型上能有效解決,說明大語言模型(LLM)對這類問題的求解效率遠遠超過圖靈計算模型。AI4R的成功本質上不是大算力出奇跡,而是改變計算模型的勝利。
解決復雜度不高的問題,人們追求采用“白盒模型”,強調可解釋性。但對于非常復雜的問題,短期內難以獲得“白盒模型”??茖W研究可以被視為將“黑盒模型”轉化為“白盒模型”的過程,即從對某現象或過程不了解逐步推進到充分理解其內部機制和原理。智能化科研提醒我們,一定時期內對深度學習這一類“黑盒模型”要有一定的容忍度,既要以“實踐是檢驗真理的唯一標準”為原則,承認“黑盒模型”某種程度的合理性,在其基礎上開展深入研究,促進科學技術發展;又要防止潛在的失控或不良后果,以科技倫理監管科研。
智能化科研(AI4R)的重要特征:平臺型科研
今天的科研還需要依靠科技工作者個人的聰明才智和想象力,好奇心驅動的科研仍然是科研的重要組成部分,但科研工作越來越離不開科研的三要素:高質量的數據、先進的算法模型和強大的計算能力。近幾年,這3個要素的規模都在迅速擴大,大數據、大模型和大算力已開始構成不可或缺的科研大平臺,平臺型科研也成為第五科學范式的重要特征。
ChatGPT的問世掀起了構建大模型的熱潮,模型的參數規模已經遠遠超出人們過去的想象。大模型確實涌現了一些小模型不具備的功能和性能,但大模型究竟做到多大規模才到盡頭,現在還沒有定論。大模型必然需要大算力,訓練大模型需要的巨大電力引起了人們的擔憂,也促使科技界探索大幅度節能的變革性器件和計算系統。大語言模型目前主要受到企業界的青睞,能不能把大語言模型當成通用的知識庫,為大科學模型提供一些基礎的知識和常識,提高科學大模型的泛化能力,是需要探索的重大科學問題。以大模型為代表的人工智能還處在發展的初期,現在的人工智能計算只相當于科學計算的電子管計算機時代,迫切需要晶體管和集成電路式的重大發明。
現在流行的說法是“大算力出奇跡”,這種說法強調了模型規模和數據規模的作用,在一定程度上是正確的。但從理論的角度來看,線性擴展計算能力對擴大可解決的NP困難問題的規模沒有本質性幫助,單純提高算力不是萬能藥。如果圍棋擴大到20×20的棋盤,只用在19×19的基礎上橫縱兩邊各多加1條線,但野蠻搜索的算力需要提高1018倍。訓練圍棋模型搜索到的游戲位置占所有可能游戲位置的比例是幾乎無窮小的數(10-150)。計算所全自動設計CPU的算法將幾乎無窮大的搜索空間壓縮到106。這些成功案例都說明,出奇跡的真正原因是壓縮搜索空間,這是靠智能算法和模型優化!世界著名的計算機科學家李明教授從第一性原理出發,證明了“理解就是壓縮,大語言模型本質上就是壓縮”?,F在全國推出了幾百個大大小小的機器學習模型,但如果只是用小模型模仿大模型,不在算法的優化、模型的微調對齊和數據的清洗整理上大功夫,只會浪費大量算力,難以縮小與國外的差距。
目前,科技界對大模型的前途存在兩種爭鋒相對的預判。以OpenAI公司為代表的一些科學家認為,只要擴大模型和數據的規模,增加算力,未來的大模型很可能會涌現出現在沒有的新功能,呈現更好的通用性。更多學者認為,大模型不會一直保持這兩年的發展速度,與其他技術一樣,會從爆發式增長走向飽和。因為按目前訓練大模型的算力3個月翻一番的增長速度,如果延續10年,算力就要增加1萬億倍,這是不可能發生的事?,F在下結論哪種預判正確還為時過早。大語言模型可能不是實現通用人工智能的最佳道路,只是人工智能發展過程中的一個階段性技術,但它比前兩波人工智能采用的技術具有更大的使用價值。我國必須盡快縮小在大模型科研與產業化上與國外的差距,走出符合國情的大模型發展之路,同時努力探索不同于大模型的人工智能新途徑。
第五科研范式需要的科研大平臺實際上是涵蓋科研三要素的智能化科研基礎設施,除了共享的大科學模型和工具軟件,還包括海量的科學數據、知識庫,當然還要提供統一調度的算力?;诖笃脚_的新科研范式將降低獲取數據、模型和知識的成本,提升算法和模型的應用能力,加速新知識的迭代。麥卡錫和尼爾森對人工智能(AI)做出過另一種解釋:AI=Automation of Intelligence(智能的自動化)。知識獲取、處理和存儲的自動化也需要大平臺來實現。建設全國規模先進的科研基礎設施,需要充分認證、精心謀劃。其中,跨領域的大科學模型與垂直領域專業模型的協同配合是需要考慮的重要問題。人工智能發展的歷史已經證明,忽視模型的泛化能力,退回到過去的專家系統是一條沒有希望的道路。但通用性也是一個相對概念,人類本身也不具有絕對的通用性,發展人工智能不必把理想的通用性作為唯一追求的目標,應重視借助大模型在一個行業或領域內提高效率,降低成本。真正通用的人工智能至少還需要20年以上的時間才能實現,近20年內要采取通用和專用并重的技術路線。算力網的建設既要考慮“塊塊”的地域需求,也要考慮“條條”的各行業業務特點,各個不同的行業都應該構成高效率的知識和資源共享的專業子網。
智能化科研(AI4R)的重要實現途徑:跨學科交叉與多種科研范式的融合
計算科學與不同學科的融合,正在驅動一場科學的數字革命。孤立地追求單學科發展已經不合理了,學科交叉融合是第五科研范式——智能化科研(AI4R)的重要實現途徑之一。近百年來,學科越分越細。1900年約有500門學科,2000年大約是5 000門,100年增加10倍。如果繼續按照這個趨勢發展,2100年可能增加到50 000門。我國教育部門設置的學科也是越來越多,與學科融合發展的趨勢是否背道而馳?如何在推動智能化科研的過程中,大力改革我國的科研和教育,值得高度重視。
人工智能已經廣泛應用到前4種科研范式,不論是自動化的實驗設備、計算機輔助的理論分析、可視化的計算機模擬,還是智能化的數據挖掘,人工智能技術都發揮了關鍵的作用。第五科研范式并沒有取代原來的4種范式,只是在前4種范式無能為力的情況下才凸顯它的威力。第五科研范式也不是科研范式演進的終結,今后可能出現第六科研范式、第七科研范式……。在第五科研范式中,模型驅動和數據驅動深度融合,“數據”和“原理”可以相互轉化,從“數據”中可以提煉出經驗性“原理”,也可以從第一性原理出發仿真模擬出高質量的數據?,F在各個領域中需要解決的難題大多需要人機交互,人在回路中,人機融合的具身智能將發揮越來越大的作用。
第五科研范式還有一個特點是科研與工程的融合。構建科研大平臺,篩選高質量的數據,將大模型做到極致,都需要高水平的工程師。今天世界上引領人工智能的不是一流的大學,也不是國立實驗室,而是OpenAI、DeepMind這樣的創業公司。這些科研團隊不僅具備前沿性、原創性基礎科研能力,還做了大量系統研發和工程開發,而且具備開發技術平臺、研發產品、推進商業化的能力。我國要在人工智能領域進入國際第一方陣,需要集中全國優勢力量,構建集產學研和工程開發于一體的新型科研團隊。
結語:積極主動參與到科研智能化的革命中
科研的智能化是一場科技上的革命。它帶來的機遇和挑戰將決定未來20年,中國在科技發展上是與國際先進水平拉大差距還是迎頭趕上。決定前途的不完全是技術上被人“卡脖子”,而是我們自己思想認識上的障礙。有兩種認識在影響我們的決策:認為只要是計算機執行的軟件都是人事先編好的算法,所謂機器智能都是無稽之談;人工智能可能產生人控制不了的風險,必須事先確定其產生的結果是完全安全可信的,才能允許推廣使用。第1種認識主要是來自計算機科學家內部,第2種認識可能主要來自政府部門。其實,計算機開始出現認知智能是一件劃時代的重大突破,我們不能視而不見。機器產生的認知是基于隨機性和概率分布,令人震驚的正確預測和所謂“幻覺”是一個硬幣的兩面,相輔相成。如果強行決定人工智能模型不允許出現幻覺,那它的涌現能力也就沒有了。我們必須在與幻覺共存的環境下發展人工智能技術,發展與安全必須雙輪驅動。
所謂“AI for Science”本質上是“AI for Scientists”。人工智能科學家和工程師不是智能化科研的主角,各行業的科學家才是主角,因為各個領域的智能化建模一定是以本領域的科學家為主來完成。各領域的科學家要擔當起這份重任,自身需要智能化轉型。如果科學家不懂計算機、不懂人工智能,要推動AI4R就非常困難。目前,推動AI4R主要的阻力來自科學家本身,因為還有不少科學家認為智能化不屬于本科學的范疇,認為學科的交叉融合不是正統科學。只有廣大科學家積極主動地參與,智能化科研才能走上健康快速發展的軌道。
(作者:李國杰中國科學院計算技術研究所?!吨袊茖W院院刊》供稿)







