關于構建我國人工智能開源創新生態體系的建議
中國網/中國發展門戶網訊 2025年1月下旬,杭州深度求索人工智能基礎技術研究有限公司成功發布了其自主研發的開源大模型DeepSeek-R1,這一突破性成果不僅為人工智能(AI)領域提供了降低成本和提升性能的創新路徑,也成為我國突破國外技術遏制、提升前沿領域核心競爭力的重要標志,推動我國AI研究水平和應用能力邁上新臺階。盡管DeepSeek引發了全球性的關注,但在AI領域我國的整體實力與美國相比仍存在顯著差距。例如,在美國斯坦福大學2024年11月發布的“全球人工智能活力排行榜”(Global AI Vitality Ranking)中,中國雖以40.17分位居第2,但遠低于美國的70.06分,尤其在研發投入、人才教育、基礎設施等方面與美國的差距明顯。
開源創新是AI領域取得當前成就的關鍵因素之一,美國Meta公司的LlaMA和中國DeepSeek等開源項目的成功再次驗證了這一點。因此,加快構建我國AI開源創新生態體系,對于我國搶占AI創新制高點意義重大,未來需要進一步加大對開源創新的支持力度,完善相關政策與基礎設施,以推動我國AI創新持續深入發展。
我國AI開源創新生態存在的突出問題
相關政策保障不足
主體政策缺乏“系統整合性”。雖然從國家到地方已經通過頂層設計、專項政策等方式明確了AI產業發展的戰略地位,但缺乏AI與開源建設相結合的具體規劃,尚未形成“頂層設計—專項政策—具體措施”系統性政策體系。美國2023年發布的《國家人工智能研發戰略計劃》(National Artificial Intelligence Research and Development Strategic Plan)中,明確提出要“開發開源軟件庫和工具包”。英國在2025年1月發布的《人工智能機遇行動計劃》(AI Opportunity Action Plan),也明確要求“基礎設施具有互操作性、代碼可重用性和開源性”。
關聯政策缺乏“積極響應性”。一些政策圍繞開源社區、治理規則和標準、人才培養、國內外合作等給出了原則性指導,但缺乏具體規范和細則,產業鏈和技術鏈的各相關方沒能有效參與,難以為開源創新生態體系構建提供必要支撐。
落地舉措缺乏“互動協同性”。例如,現有評價機制更多關注技術性貢獻,對過程性等非技術貢獻重視不足;激勵方式相對單一,企業、科研機構和個人等主體通過開源生態所能獲得的資源反哺和產業轉化能力相對有限,難以形成有效激勵。
生態穩定性不足
開源生態共生關系先天脆弱。開源天然的“公共屬性”與企業固有的“盈利追求”,決定了AI開源創新生態體系建設必然面臨利益之爭與角色沖突——生態內外部需求的矛盾、多元參與主體的競合及績效目標的差異,使得開源創新生態共生關系極易受到改變乃至破壞。AI技術快速演化下的技術及產業需求變化,也會傳導并影響生態共生關系,進一步增加不穩定性。
開源要素對外依賴度過高。國內AI開源框架多建立在國外原生框架(如PyTorch、MLIR等)之上,一些關鍵核心技術仍依賴國外主導的開源項目(如Ollama、Numpy等),常用開源許可證大多來源于美國機構(如Linux基金會、Apache基金會等),國內機構和開發者嚴重依賴國外代碼托管平臺及社區(如GitHub、Hugging Face等)。但是,目前Hugging Face在國內已經無法直接訪問。而GitHub在國內的訪問經常不太穩定,此前還曾對伊朗和敘利亞等國家的開發者進行過限制。多因疊加,致使我國開源生態穩定運行面臨較大風險。從技術上看,AI的技術堆棧從大模型、AI框架到加速芯片的驅動沒有形成自主支撐鏈,開源生態的主導權不在手上。美國參議員喬什·霍利2025年1月29日向美國國會提出《2025年美國人工智能能力與中國脫鉤法案》(Decoupling U.S. Artificial Intelligence Capabilities from China Act of 2025);若該法案得以通過,將徹底切斷美國與中國在AI領域的合作。
頭部企業的集群式號召力薄弱。在應用創新領域,國內AI頭部企業的技術優勢和影響力尚不具備帶動業內中小企業協同發展的能力,軟硬件項目之間缺乏統一的兼容性標準和接口,技術“孤島”現象突出,制約了生態的協作推進。和頭部企業相比,一些新興企業通過發布備受關注的開源產品和技術(如DeepSeek等),在社區中產生了重要影響,并表現了更強的創新能力和生態建設能力,已具備一定的引領號召能力,并建立了國產大模型的事實標準。
生態活力欠佳
開源人才供給面臨短缺。當前,我國對開源領域人才工作重視不夠。受限于考核機制等影響,開源領域人才的培養未能得到足夠的關注和支持,導致人才結構不夠完善。具體而言,開源生態中缺乏從“關鍵運維者”到“核心貢獻者”再到“一般貢獻者”的完整人才梯隊。這種結構性缺失使得我國開源生態難以持續獲得高質量的專業人才支持,制約了開源創新生態的進一步發展。
生態對外擴展乏力。國內的AI開源社區和開源代碼托管平臺主要以本土企業和研發機構推動,但缺乏具備全球推廣潛力的基礎產品,國際影響力和認可度較低,難以有效匯聚全球智慧。同時,政治因素也使國際環境更加復雜,進一步阻礙了全球合作。例如,在GitHub平臺上,中國的開發者人數近年來增長顯著放緩,并在2022年第1季度被印度超過,位居第3位。2024年第3季度,中國和印度的GitHub開發者數量分別是996萬和1711萬,相差近1倍。
高質量數據集嚴重匱乏。不同數據集特征對模型性能有極大影響。隨著AI大模型訓練數據需求量的快速增加,高質量數據集逐漸成為稀缺資源。為了避免各種糾紛爭議,國內外公開發布的大模型基本不附帶相應訓練數據集,出現模型算法開源與數據集專有閉源“倒掛”現象。國際上,知名的大語言模型訓練數據集包括以Common Crawl為代表的通用領域數據集,以及PubMed和ArxivPapers為代表的專業領域數據集。在國內,我國雖然建設形成了各類數據中心,但是仍然缺乏專門面向大語言模型訓練的高質量語料庫和數據集,嚴重制約我國AI的發展。
生態運行機制不成熟
生態分工協作機制尚不完善。國內AI開源合作多集中于“高校院所—企業”和“企業—開源組織”“高校院所—企業—開源組織”合作鏈條尚未打通,難以形成合力。開源社區與專業化服務機構缺乏必要協作導致專業化、機構化運營治理程度不高,跨平臺、跨項目協作機制尚不完善。缺少策源性AI開源組織和開源項目,導致我國從“0到1”的原始創新比較乏力。
AI開源的商業閉環尚未暢通。盡管開源AI在技術上取得了顯著進展,但商業化的成功案例相對較少。大多數開源項目側重于社區建設和技術共享,而不是商業盈利。許多項目依賴捐贈、政府資助或企業贊助來維持運營,即使想商業化還面臨知識產權保護、技術支持和市場推廣等方面的挑戰。開源大模型缺乏可持續的盈利途徑。
在國際開源組織中話語權不足。近年來,盡管國內AI領域的企業積極尋求與國際開源基金會等組織的合作,但往往停留在較淺層次,合作深度有限,且在國際專業會議中的參與度較低。同時,政府、企業、科研院所和公益組織等多方主體尚未充分發揮各自優勢,未能形成協同參與國際開源事務的多元化格局,因此限制了我國在全球開源生態中的整體競爭力。缺乏像歐盟AI Watch和開源觀測站(OSOR)之類的長期跟蹤國際AI和開源政策方面的情報平臺,難以為國家戰略決策提供決策支撐。
加快構建我國AI開源創新生態體系的建議
加強頂層設計,構建統合度高、協同性強的政策體系
完善政策體系。制定AI開源創新生態建設的頂層規劃和支持政策,明確發展目標、重點任務和保障措施,形成“頂層設計—專項政策—具體措施”系統性政策體系,積極融入國家層面的AI、新型信息基礎設施和開放科學行動方案。建立健全開源生態激勵和利益分配機制,對創新主體的開源生態建設貢獻進行全面評價,并在評價基礎上采取多元化的激勵方式,激發生態活力。
強化政策協同。統籌協調各級政府部門,制定具體規范和實施細則,明確政策執行主體、責任分工和操作流程,加強政策銜接和配套,形成政策合力,避免政策碎片化和重復交叉,確保政策落地見效。在技術發展的原生階段,政府應通過政策引導為市場創造良好的環境,尊重市場規律,充分發揮市場“無形之手”的力量,調動社會資本和群體智慧的積極性。在監管方面,政府應采取適度寬松的策略,以鼓勵創新為主要導向,減少過度干預,從而促進開源技術生態的健康發展,推動技術創新和產業繁榮。
加快開源開放AI基礎設施建設,夯實創新生態發展底層支撐
構建開放協同的AI公共基礎設施平臺。聯合政府、企業、科研機構和公益組織等力量,共同建設開源代碼托管平臺、開源大模型平臺、開源數據平臺等,為開源項目提供開發、測試、訓練、部署全流程支持。推動平臺資源的互聯互通、方便獲取、易操作性和實惠價格,協同推和融入國家“新型信息基礎設施”的建設和發展。
加強開源硬件生態建設。重點發展高性能計算芯片和AI芯片等自主可控的芯片生態,以及支持高速計算處理及快速數據流通等硬件設施,為開源大模型提供強大的硬件基礎。推動算力網絡和算力調度技術發展,提升算力資源利用效率,滿足AI應用需求。
推動開源軟件生態發展。支持開源操作系統、開源數據庫、開源大模型、開源開發工具等軟件的研發和應用,構建完善的軟件生態系統,降低AI項目開發門檻;加強開源相關方(包括產業界、科研界、教育界和社會組織等)合作伙伴關系的發現、建設和擴展。以科研界為例,國家科學數據中心、國家資源庫、重大科研基礎設施和大型科研儀器等科技基礎設施中就包含大量與開源相關的工作。支持新型研發機構或基金會組織構建完整的AI軟硬件技術棧和工具集。
加強AI開源基礎設施在科研、教育和行業領域的應用推廣。截至2024年3月,我國已批準23個國家新一代人工智能開放創新平臺,這些平臺在推動AI技術創新和產業應用方面發揮了重要作用。然而,面對當前快速演進的大模型技術生態,我國仍然缺乏一個面向全球開源開放協作、具有專業性和中立性的重大科技基礎設施。該基礎設施應能夠整合并服務相關產學研單位,促進技術成果的共享與轉化,推動多樣化的應用場景示范工作,從而全面提升我國AI的科技基礎能力水平。
培育多元參與主體,激發開源生態體系活力
優化人才培養和激勵機制。據行業報告的估計,到2030年,中國AI人才缺口預計將達到400萬人。優化人才培養和激勵機制,大力推廣開源文化,加強人才政策的制定和實施。一方面,要加強本土人才的發現、培養和成長;另一方面,要加大對全球人才的吸引。從OpenAI和xAI公司技術團隊中頻頻亮相的華人面孔可以看出,華人在全球AI領域中的重要貢獻和地位,我國應加強對高級AI人才的激勵和引入,充分發揮他們在國內AI發展中的作用。
支持新型研發機構發展。鼓勵企業積極參與開源項目,貢獻代碼和經驗,并通過開源社區獲取技術和人才支持,提升自身競爭力。加大對新型研發機構的支持力度,發揮其在AI領域智力資源優勢,推動科研成果轉化和開源生態建設。
加強數據集開源開放以及與數據集責任方的合作。國際數據公司(IDC)發布“數據時代2025”(Data Age 2025)的報告顯示,到2025年,中國數據總量預計將躍居世界第1位,全球占比有望達到27%以上。但是,數據的開放共享和交互流通仍然存在諸多問題。制定數據開放共享政策,明確數據開放范圍、標準和流程,鼓勵政府、企業和科研機構合作,協同開放和維護高質量數據集,建設開源數據平臺,促進數據資源共享和協同創新,有效應對高質量數據集短缺問題。積極響應國家《“數據要素×”三年行動計劃(2024—2026年)》,積極建設國家大模型語料庫,促進新質生產力快速發展。
完善開源創新運行機制,促進生態系統健康發展
建立開源協同合作機制。打通“高校院所—企業—開源組織”合作鏈條,促進產學研深度融合。加強開源社區與專業化服務機構協作,提升運營治理能力。完善跨平臺、跨項目協作機制,促進國內外資源共享和協同創新。
完善科技成果轉化機制。推動基礎研究與工程實踐的緊密結合,加快開源和數據領域在知識產權及成果轉化方面的制度建設。通過分離知識產權與使用權、數據集與模型算法,促進各方資源的互補與合作,打造“有限共享、無限合作”的創新生態。建議以DeepSeek為核心和契機,發起一個專注于下一代AI基礎設施的基金會組織,旨在協調相關成果快速轉化,并持續推動開源創新生態發展。
建立健全開源治理機制。打造AI開源開放一體化平臺,建立健全開源生態協作與治理機制,加強在數據安全、數據隱私、算法偏見、法律法規、倫理責任等方面的合作應對;攜手推動和落實中國2023年發起的《全球人工智能治理倡議》,以及2025年2月由中國和法國等61個國家共同簽署發布的《關于發展包容、可持續的人工智能造福人類與地球的聲明》。
優化國際創新合作機制。加強“破圈”行動,加強與開源模型、開放數據、開放文獻、開放教育等相關工作的合作及應用案例培育和推廣。積極參與和支撐開放科學、數字公共產品和AI造福人類等密切相關的國際行動計劃,為聯合國可持續發展目標等全球人類共同目標貢獻優秀案例和中國方案。
(作者:隆云滔、劉海波,中國科學院科技戰略咨詢研究院 中國科學院大學公共政策與管理學院;許哲平,中國科學院文獻情報中心 學術期刊新型出版與知識服務重點實驗室 中國科學院大學經濟與管理學院;包云崗,中國科學院計算技術研究所;武延軍,中國科學院軟件研究所?!吨袊茖W院院刊》供稿)







