<li id="44aaa"><tt id="44aaa"></tt></li>
<li id="44aaa"></li>
  • <li id="44aaa"></li><li id="44aaa"></li> <li id="44aaa"></li>
  • 分享到:
    鏈接已復制

    LANGUAGES

    新聞

    新聞直播 要聞 國際 軍事 政協 政務 圖片 視頻

    財經

    財經 金融 證券 汽車 科技 消費 能源 地產 農業

    觀點

    觀點 理論 智庫 中國3分鐘 中國訪談 中國網評 中國關鍵詞

    文化

    文化 文創 藝術 時尚 旅游 鐵路 悅讀 民藏 中醫 中國瓷

    國情

    國情 助殘 一帶一路 海洋 草原 灣區 聯盟 心理 老年

    首頁> 中國發展門戶網> 本網獨家>

    DeepSeek引發的AI創新和開源生態發展的思考

    2025-04-22 10:47

    來源:中國網·中國發展門戶網

    分享到:
    鏈接已復制
    字體:

    中國網/中國發展門戶網訊 2025蛇年春節前后,杭州深度求索人工智能基礎技術研究有限公司(以下簡稱“DeepSeek”)發布的開源大模型引起了國內外廣泛關注。首先是模型基準測試性能與世界領先的OpenAI閉源模型GPT-4o比肩,其次是訓練成本相比其他模型大幅降低,且帶思考鏈的推理模型R1及其蒸餾版本可以在多種計算能力設備上部署,最后是其代碼、文檔、模型權重等在MIT許可協議(極為寬松的一種開源許可協議)下完全開源。這一套集高性能、低成本、開源開放于一體的“組合拳”,使得DeepSeek在短時間內成為國內外人工智能(AI)領域的焦點,后續接踵而至的各行各業推廣部署,讓大模型應用在中國真正實現了“飛入尋常百姓家”。

    大模型從形態上是一種軟件。雖然模型文件通過訓練生成,通過參數和數據迭代,以概率性輸出結果,無法精確斷點調試,黑盒特征明顯;但與傳統軟件一樣,它可復制、可復用,需要操作系統提供運行環境,需要存儲系統,需要處理用戶輸入并輸出反饋。因此,DeepSeek大模型這一來自中國本土的技術創新和開源開放實踐,也為中國軟件行業提供了可深入分析并學習借鑒的模式。

    本文將DeepSeek的創新模式歸納為“以軟補硬”“開源傳播”和“生態優先”。同時,也從生態入口、開源軟件供應鏈、開源基礎設施3個方面,分析當前我國AI開源創新仍然面臨的問題和風險。最后從大模型操作系統布局、軟件供應鏈保障、開源基礎設施建設、軟硬件協同發展4個維度,提出加強我國科技基礎能力的建議,以期更好支撐中國創新團隊的長足進步發展,不斷搶占AI和軟件領域的全球科技制高點。

    DeepSeek的創新模式分析

    “以軟補硬”開辟大模型創新路徑

    在算力資源受限的背景下,DeepSeek通過軟件架構創新和算法優化,使其模型在保持高性能的同時,大幅降低了對硬件投入的依賴,并為全球開發者提供了可復現、可負擔的“以軟補硬”技術方案。這讓近年來大模型領域普遍推崇的規模定律(scaling law)出現了拐點,依賴大規模硬件投資建立的算力壟斷“高墻”出現了缺口,大模型研究和應用的門檻被大大拉低,資源有限的中小企業、研究機構甚至個人,都迎來了AI創新和AI賦能的可能性。

    軟件在這一輪大模型浪潮中往往被忽視。事實上,對于硬件架構確定、優化目標明確的場景,軟件改進帶來的總體收益通常大于硬件。2017年圖靈獎獲得者漢尼斯和帕特森于2018年4月在國際計算機學會(ACM)做獲獎演講時,給出了用不同編程方法計算兩個4096×4096矩陣相乘的性能對比,該數據引用了美國麻省理工學院(MIT)計算機科學與人工智能實驗室(CSAIL)雷瑟斯等人發表在Science上的文章There’s plenty of room at the Top: What will drive computer performance after Moore’s law?(《頂端仍大有可為:摩爾定律之后什么將驅動計算機性能發展?》,這里的“頂端”指代軟件),具體對比數據見表1。從表中可以看到,用C語言編寫比Python要快47倍,分治法并行優化后可得到6 727倍的加速,而采用SIMD指令集則可加速6萬多倍。同樣,DeepSeek使用英偉達PTX,即介于CUDA高級編程語言和實際GPU機器代碼之間的中間代碼表示語言,也起到了極大的加速效果。

    在過去幾年中,華為鴻蒙操作系統同樣采用了“以軟補硬”的方法,在處理器制程受限的情況下,通過操作系統、編譯器、渲染引擎等多種軟件優化手段,在手機上保持了良好的用戶體驗。

    更重要的是,軟件優化方案為快速傳播奠定了基礎。軟件之于硬件的一大優勢,就是傳播的便捷和迅速,通過網絡下載就可以快速到達最終用戶。試想,如果這次DeepSeek發布的是“星際門”一樣的硬件堆疊方案,又或是使用了某種硬件加速方案(如同當年谷歌為深度神經網絡專門設計的TPU),將很難如此快速傳播推廣。

    以開源開放實現用戶高速增長

    軟件的核心競爭力是用戶。大規模、高質量、多樣化的用戶群體,不僅是軟件價值變現的堅實基礎,更是推動軟件持續迭代創新的強勁動力。正如中國科學院計算技術研究所包云崗研究員所說,在開源模式下,軟件的價值計算和傳播效應遵循梅特卡夫定律(Metcalfe’s Law),即網絡的價值與網絡中用戶數量的平方成正比。具體表現為兩個方面,一是用戶規模效應:用戶越多,價值越大,反饋和改進更多,生態系統更豐富。二是網絡效應:更多開發者參與,就會有更多的應用場景,繼而更快的迭代速度。當眾多用戶轉變為開發者和測試者,就會極大地降低軟件開發測試成本,驅動軟件升級演化和價值提升,繼而吸引更多的開發者參與,形成持續的良性循環。

    前面提到大模型本身也是一種軟件,因此開源軟件曾經創造的發展模式,完全可以被大模型所復用。然而,DeepSeek開源模式創造了比傳統軟件更為迅速的用戶增長奇跡。據統計,DeepSeek連續登頂蘋果App Store和谷歌Play Store全球下載榜首,上線18天累計下載量突破1 600萬次,遠超Chat-GPT發布首月的900萬下載量。這其中固然有大模型概念熱度的加持,但更有DeepSeek幾乎毫無保留開放了模型文件、權重文件、核心代碼和技術文檔的原因。由此在短短半年內吸引了全球超過百萬開發者,建立了活躍的開發者社區,不僅貢獻了大量的代碼和工具,還形成了自發的技術交流和學習氛圍,例如GitHub上DeepSeek所維護的awesome-deepseek-integration頁面。這種社區驅動的創新模式,為AI技術的快速迭代和應用落地提供了強大的動力。DeepSeek的經驗也表明,即便在AI時代,開源開放仍然比封閉壟斷更具競爭力。

    以標準化接口和工具構建上下游生態

    DeepSeek在建立生態方面同樣展現出了很高的效率,在短短一個月內,DeepSeek R1從滿血版671 B到70 B、32 B、7 B甚至1.5 B等大小不同模型得到快速部署,大到云服務廠商、互聯網巨頭、國資央企、高校院所,小到街道辦、實驗室、個人用戶等,從制造業到服務業,從教育到醫療,DeepSeek滲透到各行各業,推動效率提升和智能化轉型。

    生態快速壯大背后則是其對調用接口和AI軟件工具包的標準化,以及因此而快速聚集的上下游生態伙伴。標準化調用接口簡化了AI應用的接入流程,使得DeepSeek很容易被Ollama、vLLM、SGLang等大模型服務框架所支持,也使得ChatBox、AnythingLLM等大模型入口應用能夠很快接入DeepSeek。標準化軟件工具包大幅降低了AI應用部署門檻,同時還提供了豐富的預訓練模型和數據集,使得開發者可以通過領域精調和檢索增強生成(RAG)實現自身業務需求,進一步開展應用創新;同時,使得華為昇騰、寒武紀等其他非英偉達芯片能很快完成適配,形成百花齊放的國產軟硬件協同適配景象。

    從更宏觀的生態視角看,DeepSeek已經在中國建立了事實上的大模型標準。自從2020年底Chat-GPT發布以來,無論美國還是中國都進入了“百模大戰”的格局,盡管OpenAI引領了發展,建立了提示詞工程(Prompt Engineering)等事實標準,但因其選擇閉源策略,且其最大投資者微軟公司的Windows操作系統同樣閉源,使得“應用—模型—系統—硬件”生態鏈路參與者無法自主開展大模型和系統的適配,阻礙了參與者的參與意愿和創新動力。例如,對于大量非英偉達的硬件加速卡廠商來說,因為無法修改基礎模型和相關代碼,只能模擬與轉譯英偉達GPU指令集,無法實現與模型的原生適配;對于亞馬遜、谷歌、阿里等云平臺服務商來說,由于與微軟Azure的競爭關系,也無法與OpenAI實現充分的業務整合。

    DeepSeek開源發布之后,不僅出現了微信、WPS等應用整合,也出現了華為云、阿里云、騰訊云等服務集成,還出現了華為昇騰、寒武紀、沐曦、海光、申威等硬件原生適配,甚至出現了大量本地部署的一體機解決方案。以DeepSeek為大模型事實標準,中國正在形成“應用—模型—系統—硬件”全鏈路的生態聚集。長遠來看,這一變化必將重塑中國乃至全球AI的發展格局。

    我國AI開源創新面臨的風險挑戰

    在看到DeepSeek成功一面的同時,還需要看到當前中國AI開源創新面臨的一些風險挑戰。

    大模型入口程序的風險

    所謂大模型入口程序,對于部署者是指Ollama、SGLang、vLLM等大模型服務框架程序,用來啟動大模型服務進程;對于用戶是指通過封裝多個大模型服務,為用戶提供更加方便易用、靈活可配置的交互界面程序,如ChatBox、AnythingLLM等。

    以Ollama為代表的大模型服務框架,在啟動大模型服務時通常以網絡守護進程的方式出現,會打開某個端口并監聽來自網絡的服務請求。這樣的守護進程一旦出現漏洞,攻擊者很容易通過服務端口入侵服務主機。事實上,近期已經發現了Ollama導致的、可被利用的大模型服務漏洞。

    而對于用戶交互的入口程序來說,盡管ChatBox等通過開源來證明自身程序的安全性,但卻無法證明用戶隱私數據的安全性,畢竟所有的對話信息都會被入口程序轉發和截取。

    對主流入口程序的掌控和主導,會成為大模型競爭的焦點之一,但目前為止,大模型的入口程序還是運行在已有主流操作系統之上,因此操作系統不自主可控的風險將會延伸到大模型入口程序,畢竟操作系統很大程度上決定了誰能成為入口,20世紀90年代網景公司NetScape瀏覽器在與微軟IE瀏覽器競爭中敗北就是前車之鑒。

    軟件供應鏈的安全可靠風險

    DeepSeek的開發依賴大量開源或閉源組件。例如:基礎框架中的PyTorch深度學習框架、CUDA GPU加速庫;訓練相關的Megatron-LM分布式訓練框架、Flash Attention高效注意力機制;推理優化相關的FasterTransformer推理加速引擎、TensorRT推理優化庫、ONNX模型轉換標準庫;工具鏈中的版本控制Git、容器化部署Docker;數據處理中的NumPy數值計算庫、pandas數據處理庫,以及HuggingFace數據集管理工具等。

    以上僅是基于公開信息的判斷,實際使用的工具可能更多,有些專有工具可能未公開。而在這些互相高度依賴的軟件供應鏈中,有些關鍵環節仍然被Meta公司等國際競爭對手掌控(如PyTorch開發框架,以及前面所述的Ollama入口程序),或屬于某家公司私有產品(如英偉達CUDA),均存在斷供可能。此外,根據奇安信的最新報告,已出現一些專門針對DeepSeek的供應鏈偽造或投毒攻擊。這些都構成了我國AI面臨的軟件供應鏈安全可靠風險。

    健康的大模型生態需要一個同樣健康的開源軟件生態。對于軟件供應鏈,特別是開源軟件供應鏈關鍵節點的認真梳理和持續維護,仍然是企業和行業,甚至國家實現人工智能高水平科技自立自強必須要付出的投入。

    開源基礎設施的風險

    不僅DeepSeek,國內主要開源大模型項目幾乎都選擇在美國微軟公司旗下的GitHub平臺發布,這是因為GitHub全球開發者集中度最高,有完整的開源基礎設施能力、成熟協作工具鏈和已經發展壯大的程序員社交網絡,因此國際影響力更大,更有利于項目推廣。然而,選擇GitHub未來也面臨挑戰和風險,包括但不限于地緣政治風險、數據主權問題、潛在的訪問限制風險等。這并不是DeepSeek和國內開源項目維護者的問題,而是國內缺乏與GitHub競爭的開源基礎設施,從設施完善程度、開發者聚集規模、國際化程度、運營能力等,國內現有基礎設施與GitHub相比都存在較大差距。

    Hugging Face近年來隨著大模型爆發而異軍突起,成為全球最流行的模型托管平臺,國內的阿里魔搭等平臺雖然已經起步并初具規模,但與Hugging Face相比,同樣在功能、規模、國際化、運營等方面存在顯著差異。

    加強我國AI創新能力的建議

    基于以上分析,本文提出加強我國AI創新能力的如下建議。

    盡快啟動大模型操作系統的研發探索。大模型仍然以軟件的形態存在于現有操作系統生態體系,雖然出現了ChatBox等新的入口程序,但不足以撼動Windows、iOS、Android的生態主導地位。美國蘋果公司和我國華為公司先后提出了面向意圖的開發框架,旨在整合大模型的能力,繼續掌控用戶入口。微軟公司通過預裝Copilot并與辦公套件、瀏覽器等深度捆綁,鞏固其桌面領域壟斷地位。上海交通大學陳海波團隊提出了大模型操作系統的3種技術路線,即漸進路線(大模型作為操作系統外掛組件)、激進路線(大模型即操作系統)和融合路線(大模型與操作系統深度融合),并建議采用融合路線,從而在利用大模型能力的同時,最大程度兼容現有操作系統應用生態。鑒于大模型帶來的機器智能躍升和交互范式變革,無論采用何種路線,大模型操作系統研發工作都迫在眉睫。隨著大模型和操作系統各自發展,不同技術路線會自然合并,然而一旦錯過生態初始構建的機會窗口期,將面臨新的、更難突破的生態壟斷。

    加強開源軟件供應鏈治理。開源軟件已經成為組裝大型復雜系統軟件的“原材料”和“元器件”。一個Linux開源操作系統發行版(如Debian、openEuler等)往往包含上萬個開源組件,通過這些組件的彼此依賴關系編譯組裝而成。一個大模型從開發、訓練到部署、運行、推理,也依賴于大大小小的開源組件。隨著大模型成為像操作系統一樣的戰略基礎軟件,其開源軟件供應鏈的保障必不可少。中國科學院軟件研究所從2019年發起“開源軟件供應鏈點亮計劃”,梳理全球開源軟件知識圖譜,找出操作系統等大型復雜基礎軟件的關鍵供應鏈節點,通過“開源之夏”等活動,持續培養能夠看護關鍵開源軟件的高水平人才。建議圍繞大模型的開源組件依賴情況,持續梳理開源軟件供應鏈,對其中關鍵節點進行重點布局,投入或培養相應的人力資源,確保具備持續開源維護的能力。

    加快對標GitHub和Hugging Face的開源基礎設施建設。面對GitHub和Hugging Face托管平臺的壟斷局面,一方面繼續完善現有國產代碼托管平臺,提升平臺穩定性和功能完整度,優化開發者體驗。另一方面也要有過渡策略,采用多平臺同步策略,建立戰略備份機制。從2019年中國科學院軟件研究所啟動建設“源圖”開源軟件供應鏈基礎設施,迄今已形成對全球關鍵開源軟件的全量備份,并提供可信軟件倉、可信編譯構建環境等平臺服務。后續還需要面向大模型的新需求、新場景,加快打造新一代開源開發基礎設施,聯合國內優勢力量逐步培育本土開源基礎設施生態,并以更加開源開放的模式,吸引國外機構和開發者參與,共同對沖潛在的地緣政治風險。

    加大開源軟硬件協同力度。在新一屆美國政府不斷升級管控施壓的背景下,英偉達GPU硬件供應限制和CUDA軟件生態壁壘,已經成為中國實現AI領域高水平科技自立自強面臨的最主要障礙之一。例如,DeepSeek訓練優化所使用的PTX仍然屬于CUDA生態體系。建議加大RISC-V開源指令集下軟硬件協同,特別是AI相關擴展指令集的協同力度。RISC-V指令集的崛起,不僅為了從指令集層面打破x86/ARM的生態壟斷,同時也有望打破英偉達GPU私有指令集和私有算子的壟斷。隨著RISC-V向量指令集、矩陣/張量指令集的制訂和完善,新的軟硬件接口標準規范有望取代CUDA私有接口規范,并配合編譯器等在RISC-V專用AI加速卡上實現軟硬協同。一旦某款RISC-V加速卡在性能功耗比上超越英偉達的旗艦GPU,整個RISC-V生態也將迎來“DeepSeek時刻”。

    需要強調的是,以上風險分析和建議,并非為了形成封閉的、防御式的技術體系,而是為了中國乃至全球都有更為開源開放的選擇,平等參與AI新技術、新產品、新服務的研發應用,共同打造AI時代的人類命運共同體。

    (作者:武延軍,中國科學院軟件研究所?!吨袊茖W院院刊》供稿)

    【責任編輯:殷曉霞】
    返回頂部
    午夜无码福利18禁网站