細胞工廠設計數字化賦能綠色生物制造
中國網/中國發展門戶網訊 綠色制造是綜合考慮環境影響和資源效益的現代化制造模式,而綠色生物制造作為綠色制造重要的方式之一,具有得天獨厚的優勢。綠色生物制造以生物細胞及其酶的反應過程為核心,以CO2、木質纖維素、農作物廢棄物、其他可再生生物基碳源等為原料,生產燃料、藥物分子、材料、大宗化學品和食品等低碳、可持續發展產品,實現原料獲取、過程制造的綠色化和低碳化。綠色生物制造可以實現資源的高效利用和環境的可持續發展,是國家提出大力發展的新質生產力的重要組成部分。綠色生物制造以高科技、高性能、高質量等為特征,完美契合新質生產力,是符合新發展理念的先進生產力質態。

高性能細胞工廠作為綠色生物制造的核心,是工業發酵過程的主體。為響應快速發展新質生產力的號召,細胞工廠需要快速更新迭代以適應不同的生產環境,以及追求更高的生產性能,這對細胞工廠的精準設計、快速迭代、發酵過程控制等提出了極高的要求。而隨著計算領域的發展,“數字孿生”(digital twin)實現了對化工過程優化與控制、新產品開發與測試等的數字化,人工智能更拓展并提高了數字孿生的應用范圍和效果?;陬愃频南敕?,對細胞內復雜的生物過程進行數字化模型構建,構建多種數據庫,并利用機器學習等手段對酶、細胞工廠代謝網絡、發酵工藝等進行數字化,形成細胞工廠全生命周期數字化設計方法(圖1)。利用這些方法,可以快速、高效獲得高性能細胞工廠,賦能綠色生物制造。
細胞工廠數字化基礎:代謝數據庫、酶數據庫
數據是數字化的基礎。在細胞工廠中,由酶催化的代謝反應是實現細胞生長、產物合成的關鍵。代謝數據庫包含代謝化合物、生化反應、催化生化反應的酶、代謝反應組合形成的代謝途徑等信息,是代謝網絡數字化的基礎。
代謝數據庫、酶數據庫的發展現狀
近年來,隨著互聯網時代的來臨,酶、代謝數據的共享為研究人員帶來了極大的便利(表1)。KEGG、MetaCyc(BioCyc數據庫子數據庫)等常用的綜合代謝數據庫在分子水平建立了對細胞代謝的系統認知,Brenda、PDB、Uniprot等酶反應數據庫則聚焦代謝反應酶的結構與功能。代謝數據庫和酶數據庫的結合,將由代謝途徑組成的代謝網絡,與酶結構功能、催化活性、細胞定位等的酶催化數據相結合,形成對細胞工廠代謝的系統性表征。同時,隨著研究的深入,HMDB(人類代謝組數據庫)、SGD(酵母基因組數據庫)、GMD(植物代謝組數據庫)等物種專有代謝數據庫、基因數據庫,在特定的應用環境中也發揮了重要作用。

我國在發展和建設自主知識產權的高質量代謝、酶數據庫方面發展較晚,導致我國在綠色生物制造產業發展安全及在國際上的核心競爭力存在一定程度的隱患。為此,近年來國家和研究人員開始重視生物科學數據的標準化及安全管理,頒布了《中華人民共和國生物安全法》,同時依托《中華人民共和國數據安全法》等法律法規,推進生物科學數據的標準化數據庫構建與規范化管理。
基于大語言模型的數據庫更新方法
隨著合成生物技術的發展,細胞中新酶、代謝反應的更新速度呈指數級增長,傳統數據庫更新及維護需要人工對信息進行整理,存在一定滯后性。隨著計算機技術的發展,通過機器學習挖掘文獻中文本提取代謝相關信息成為可能,而近幾年GPT-4、Bard等大語言模型(LLM)在生物醫藥領域的發展與應用,更是提高了生物代謝信息提取的速度與準確性。而在部分文獻中,代謝途徑信息以圖片格式展示,為提取這部分不在文本中的代謝數據信息,在最新的報道中,研究人員使用包括Faster R-CNN和PaddleOCR的機器學習模型對文獻中包含代謝途徑的圖片進行識別,實現了高通量、全面地從文獻中提取代謝反應信息。隨著機器讀文獻中信息獲取能力和準確性的提升,代謝數據庫、酶數據庫的數據更新將更具時效性。
細胞工廠酶的數字化設計
酶是細胞中代謝反應的核心,酶的功能、活性、選擇性直接影響細胞工廠的產物合成能力。酶的數字化設計為細胞工廠中代謝反應提供了高效的催化劑。通過數字化方法,預測蛋白質結構與功能,并進行酶的改造設計,可將酶的催化活性提高數百甚至上千倍。例如,通過理論計算-實驗驗證,ω-轉胺酶的kcat/Km值提高了1 660倍。
蛋白質結構預測
蛋白質結構是其功能的基礎,數字化酶的設計依賴于蛋白質結構的精準預測。根據不同的預測思路,研究人員開發了多種蛋白質結構預測軟件,包括基于同源建模的SWISS-MODEL、基于無模板方法的Rosetta等。而Google DeepMind團隊基于深度學習算法開發的Alphafold在精準預測蛋白質結構的基礎上,更提高了蛋白質、核酸、小分子、離子間互作結構的預測準確性,將生物大分子結構預測推上了新高度。
細胞工廠酶的改造——酶的再設計
酶的再設計根據已有酶的結構功能,對催化活性中心或其他關鍵位點氨基酸進行突變,并通過量子力學模擬(QM)、分子動力學模擬(MD)、粗?;–G)模擬、分子對接等計算生物化學手段進行分析,并指導濕實驗驗證,實現以催化活性提高或耐受能力提高等為目標的快速酶設計。
細胞工廠酶的創新——酶的從頭設計
蛋白質結構決定功能,而理論上蛋白質的氨基酸序列決定蛋白質結構,已知功能酶的量級遠遠小于由隨機氨基酸序列組成的“蛋白質空間”。相比于酶的再設計,酶的從頭設計旨在結合已有酶骨架結構及功能特點,拓展已知功能酶在蛋白質空間中的范圍,實現新功能酶的設計,探索浩瀚未知的蛋白質空間。限于酶從頭設計的難度,現階段高性能軟件及成功案例相對較少,包括ORBIT、DESIGNER、Rosetta、CCBuilder、PRODA等在內的多種軟件能夠實現酶的從頭設計。其中Rosetta針對自然界中沒有酶可以催化的化學反應,如Kemp消除反應、逆醛縮反應等,進行酶的從頭設計,創造了可以催化這些反應的人工設計酶,拓展了酶可催化反應的種類,Rosetta的開發者David Baker也因在計算蛋白領域的貢獻獲得2024年諾貝爾化學獎。
細胞工廠代謝網絡數字化設計
酶的數字化實現了酶催化代謝反應的優化及新功能酶的設計,拓展了以酶催化反應為核心的細胞工廠的功能。在細胞工廠的代謝層面,細胞內源的酶促反應會組成復雜的代謝網絡,而通過合成生物學添加的外源路徑更增加了細胞工廠設計的難度。為實現目標產物的高效合成,在細胞工廠中,需要對復雜代謝網絡中物質流、能量流、異源合成路徑等進行組織優化,這通常需要耗費大量的物力和時間成本?;蚪M尺度代謝網絡模型(GEM)、生物逆合成途徑預測、基因線路數字化設計等數字化方法可以指導細胞工廠的設計,減少試錯成本(圖2)。

基因組尺度代謝網絡模型(GEM)指導細胞工廠代謝網絡數字化設計
GEM將代謝網絡數字化,以描述生物體整個代謝途徑中基因—蛋白質—代謝反應的關系特征,是通過數學模型模擬細胞內代謝反應的系統生物學研究方法。自研究人員首次在流感嗜血桿菌中完成了GEM的構建與應用,在接下來的20余年中,為提高GEM計算的準確性,在以代謝流矩陣為核心的代謝流平衡分析(FBA)基本算法的基礎上,添加了酶約束、熱力學約束及多約束等不同層次的附加約束,并結合轉錄組學、代謝組學等實驗數據,實現了多種生物高質量GEM的構建與應用]。而隨著獲取實驗數據成本降低、數據更新速度加快,GEM也在不斷地更新重構,以適應不同的應用環境。
GEM的模型構建方法主要包括:手動構建、自動構建和半自動構建。2010年COBRA ToolBox工具箱的開發實現了GEM手動構建的數字化,但手動構建需要耗費大量的時間。自動與半自動工具加快了GEM模型的構建,自動構建GEM,如Model SEED等工具箱可以快速大批量生成多個物種的GEM,但數據質量很大程度影響自動構建的GEM模型的精準度。而半自動構建GEM的工具既可以快速收集數據,又可以進行手動數據校正,保證了快速構建的模型的精準性,成為現階段GEM構建與重構的主要方法?,F階段半自動構建模型的方法逐漸成熟并趨于標準化,已有多種工具箱被開發使用:RAVEN工具可以重構和分析GEM,并將結果進行可視化;Merlin集成了序列匹配與亞細胞定位功能,使得其使用極為方便;GECKO工具通過動力學和分子生物學數據向GEM中添加酶制約因素,從而提高GEM預測能力。
利用構建的模型,通過FBA算法計算細胞內代謝流量,預測細胞以最大化生長或生產產物為目標的代謝通量,進而為理解細胞內的代謝流量變化提供幫助;而MOMA、FSEOF及OptKnock等算法則以提高生長與生產為目標,預測細胞代謝通量分布,并提供基因表達強度優化策略,為細胞工廠實驗設計提供指導。
隨著數據更新速度的加快及模型構建技術的更新,研究人員實現了對多種工業微生物GEM的重構與迭,并應用這些GEM實現了工業細胞工廠代謝網絡的數字化設計(表2)。

生物逆合成工具輔助細胞工廠異源途徑設計
在進行全新化合物或從未在細胞工廠中完成從頭合成的化合物的細胞工廠構建過程中,需要大量的時間精力進行未知途徑的解析及途徑設計,且這個過程強烈依賴專家知識。數字細胞工廠通過生物逆合成策略,結合數據庫中數據信息,針對目標分子,通過反應規則、機器學習等方法,利用酶的雜泛性拓展酶催化反應空間,將目標分子復雜結構逆向解析,以細胞工廠內源代謝物為逆合成目標終點,實現細胞工廠外源代謝途徑的逆合成設計。逆合成設計結合上述章節中介紹的酶的從頭設計、再設計,及細胞工廠代謝網絡數字化設計,形成完整的目標分子細胞工廠代謝途徑設計。
生物逆合成在目標分子異源合成途徑設計中,根據原理和實現難易程度,可以分為2類:基于已知酶、代謝反應的知識庫搜索方法;基于反應規則提取或機器學習,預測未知的、新的酶促反應的方法。這2種方法可以進行組合,實現更貼合實驗設計思路的逆合成路徑設計。
基于知識庫搜索的途徑設計方法由于無法超越數據庫中數據,受限于已知酶促反應的數據規模。通過蒙特卡洛樹搜索(MCTS)、無環路徑搜索等算法,構建了DESHARKY、Metabolic tinker等軟件,實現了基于已知酶促反應的逆合成途徑設計,成功發現碳利用率、能量利用率更高的新途徑,并應用在細胞工廠構建中。
在新酶促代謝反應預測方面,按拓展新酶促反應的方法可分為:基于反應規則的逆合成設計方法、無模板逆合成設計方法、半模板逆合成設計方法。
基于反應規則的逆合成設計通過原子—原子映射等方法從已知數據庫中提取反應規則,并使用標準化方法形成反應規則數據庫。例如,RetroRules、Ni等從MetaCyc數據庫抽提并精簡的包含1 224條反應規則的規則數據庫;RetroBioCat軟件使用的包含99條的極簡反應規則數據庫等;通過MCTS等算法構建逆合成途徑設計軟件,基于RetroRules的RetroPath2.0、RetroPath RL、RetroBioCat等。
無模板逆合成設計方法使用反應數據庫來訓練機器學習模型,將“反應物—產物信息對”視為翻譯過程,使用自然語言處理(NLP)進行模型構建,實現逆合成反應途徑的拓展,基于此方法已開發了BioNavi-NP、基于酶EC號的預測模型等算法或軟件。
基于反應規則的逆合成設計結果中,通過反應數據庫—反應規則數據庫的映射關系可以提供預測途徑的酶參考信息,可以基于已有信息進行酶的數字化設計,但設計的途徑受限于反應規則數據庫。而無模板逆合成設計方法通過機器學習,極大拓展了酶促反應空間,但由于酶促反應數據量對于機器學習而言仍然較小,其準確性仍有待提高。而基于深度學習開發的半模板逆合成設計軟件,如RetroPrime、G2Retro則通過分子圖捕捉分子結構特征,解決了無模板方法中已有SMILES式為唯一輸入使得模型無法理解分子結構信息的問題。半模板方法通過預測反應中心提高了模型的可解釋性,并通過深度學習保證了逆合成預測的拓展能力和多樣性。
基因線路數字化設計調控基因時序表達
為了滿足細胞工廠基因表達的時序調控、不同代謝模塊之間的代謝通量調節等需求,需要進行基因的邏輯、時序、定量表達調控、多基因同時表達調控等邏輯門基因線路設計。完成這些設計需要使用誘導型啟動子、基于特定DNA序列靶向蛋白的啟動子抑制、轉錄因子等轉錄調控工具。面對多基因的邏輯構建等復雜問題,手動設計時間成本高、準確性低,而基因線路自動化設計(GDA)可以快速將標準化基因元件組裝和設計成具有所需功能的基因線路。
GDA基于標準化元件庫,實現基因線路的數字化設計。研究人員使用合成生物學開放語言(SBOL)、系統生物學標記語言(SBML)等方法構建了SynBioHub、Addgene、iGEM等標準化基因元件數據庫?;谶@些數據庫,開發了SBOLCanvas、iBioSim、Cello、SynBioSuite等GDA軟件,實現基因線路快速精準數字化設計,其中Cello軟件的基因線路設計在大腸桿菌、酵母菌、多形擬桿菌等細胞工廠中已有廣泛的應用。
細胞工廠發酵工藝與過程數字化
獲得高性能細胞工廠后,為使其能夠實現目標產物工業規模發酵生產,需要將發酵體系逐級放大以優化發酵工藝與過程參數,實現產品的高效生產。面對生物發酵體系復雜、缺乏有效傳感器、測樣頻率低、檢測時間長導致時效性差等一系列問題,工業級發酵過程的數字孿生與優化控制有助于發酵體系的控制和產量的提高(圖3)。

發酵體系放大及發酵過程控制數字化
在發酵工藝的設計過程中,放大效應的存在致使工藝設計與實際工業生產環境不匹配,影響細胞工廠合成效率。通過數字孿生,及其與知識圖譜結合等數字化手段,可對發酵過程進行數字化模擬及實時監控,并對發酵過程進行自動化控制,實現發酵工藝的優化。
在發酵工藝中,數字孿生通過接受發酵過程產生的實時數據,如發酵體系溶氧(DO)、尾氣分析、溫度等,進行仿真、預測,分析發酵狀態,并根據發酵狀態對發酵體系進行優化和決策。通過人工智能,結合實際發酵體系,可以實現中試級別、生產級別發酵體系的數字孿生模型構建,并實現產物產量的提高。將基于關鍵因素間關系專家知識的知識圖譜方法與數字孿生結合,構建兩種方法的整合決策模型,可以提高預測準確性并增強控制性能。
發酵車間數字化管理系統設計
在工業生產中,設備、原料、人力等資源的時空調度同樣是保證發酵工藝過程、工業生產效率的重要因素。在“工業4.0”的概念基礎下,對工業生產過程進行信息化建設,構建企業資源計劃(ERP)系統,并結合自動化系統,開發了制造執行系統(MES),實現數據實時采集、管理,并進行資源、設備的調度,構建發酵車間層次的管理數字化軟件,實現了發酵過程成本降低及生產效率的提高。
數字細胞工廠總結與展望
基于人工智能、模型構建等的數字化方法已經在細胞工廠構建的全流程中得到了廣泛的應用。相比傳統細胞工廠設計方法,數字化設計具有高效、節約成本等優勢。在以細胞工廠為核心的綠色生物制造高速發展的背景下,細胞工廠設計數字化進程正在不斷加快,形成了包括數據庫構建、細胞工廠代謝設計、發酵體系設計、發酵過程調控等的細胞工廠全生命周期數字化設計(圖1)。隨著未來計算能力的提升及更深入的學科交叉,全生命周期數字化細胞工廠設計將向更準確、更快速、更高效、全流程的方向發展,賦能綠色生物制造。
(作者:孟繁澤、秦磊,清華大學化學工程系 清華大學工業生物催化教育部重點實驗室 清華大學合成與系統生物學中心;曹銳,新疆大學智能科學與技術學院;胡冰,北京理工大學化學與化工學院生物化工研究所;李春,清華大學化學工程系清華大學工業生物催化教育部重點實驗室清華大學合成與系統生物學中心 北京理工大學化學與化工學院生物化工研究所?!吨袊茖W院院刊》供稿)







