人工智能時代的開源與閉源技術模式探討
中國網/中國發展門戶網訊 近年來,人工智能技術正以前所未有的速度發展,技術模式的選擇對行業發展具有深遠影響。大模型(如GPT系列、BERT、Llama、DeepSeek等)成為推動人工智能技術應用創新的關鍵力量。而大模型通常分為開源與閉源大模型兩種技術模式,其在不同的條件和環境下各具優勢。本文將重點闡述開源與閉源的差異性,并探討兩種技術模式對人工智能生態系統發展的重要影響。
開源與閉源之爭:談古論今
開源指開放源代碼,允許用戶修改、使用、分發;而閉源指代碼封閉,用戶不能修改和查看。開源與閉源的競爭貫穿了計算機和軟件技術發展的整個歷史,每一次技術的變革都伴隨著兩者激烈的較量。開源與閉源不僅是技術理念的碰撞,更關乎商業模式、創新速度和市場主導權的爭奪。
軟件技術的開源與閉源:1.0階段
在計算機的早期階段,開源占據優勢。隨著計算機產業化的發展,企業開始意識到軟件本身的商業價值,閉源開始逐漸占據優勢。20世紀80年代,操作系統成為開源與閉源競爭的焦點。美國微軟公司的Windows以閉源的形式迅速占領了個人計算機市場,與此同時,理查德·斯托曼等試圖建立開源的Linux操作系統對抗微軟的閉源操作系統,其在服務器市場表現出極強的生命力。
20世紀90年代,互聯網的興起讓軟件生態發生了重大變化。美國微軟公司的Internet Explorer(IE)瀏覽器憑借與Windows操作系統的深度綁定,迅速擊敗了網景(Netscape Navigator)瀏覽器;而網景在失敗后選擇將其代碼開源,成為對抗IE的重要力量。2008年,美國Google公司推出了基于開源Chromium引擎的Chrome瀏覽器,展現了強大的市場競爭力,使得微軟在2019年被迫采用開源的Chromium引擎,即在開源的潮流中選擇了改變。
由開源與閉源的競爭歷史可以看出二者并非絕對對立,而是不斷演變的動態關系。微軟曾經反對代碼開源,如今卻成為全球最大的開源社區GitHub的擁有者,并開源了.NET框架;Google公司和Meta公司在人工智能領域利用開源推動技術發展,但仍在核心產品上保持一定的封閉性。開源與閉源各具優勢:開源的創新能力和社區協作精神可以推動技術的進步,而閉源的商業模式則提供了較好的資金和資源支持。
大模型技術的開源與閉源:2.0階段
開源與閉源的競爭從1.0階段的操作系統和應用軟件延伸到了當前的大模型,本文稱之為2.0階段。相比于1.0階段開源軟件的完全公開,2.0階段的大模型技術模式早期階段多采取閉源的模式,如美國OpenAI公司的ChatGPT聊天機器人和百度的文心一言人工智能助手等。隨著大模型技術的發展和演進,越來越多的團隊采取開源模式。
在開源大模型中,又分為完全開源和部分開源等。例如:① 完全開源(代碼+訓練數據+預訓練權重開源),如Stable Diffusion(CompVis許可證)、BERT(Apache 2.0 許可證);② 部分開源(代碼+權重開源,數據閉源),如Llama 2和3(Meta 許可證)、Mistral 7B(Apache 2.0 許可證)。DeepSeek是開源大模型中的典型代表,其最初為部分開源,后來逐漸放開剩余代碼。目前,DeepSeek已在全球引起了廣泛影響和關注,如2025年1月30日的Nature文章認為“DeepSeek以其獨特的架構和出色的性能震驚了世界”。
開源模式的技術擴散機制與產業賦能效應
當前,全球科技飛速發展,開源模式不僅成為推動技術創新與生態構建的重要引擎,也催生了全新的商業模式;與此同時,其也面臨數據安全、隱私風險、商業化困境和倫理監管等多重挑戰。
開放協作重構技術研發范式
開源模式打破了地域、機構和技術壁壘,使全球開發者、研究者及企業能夠共同參與前沿技術的研發與優化。例如,Meta公司的Llama系列大模型和DeepSeek系列大模型的開源實踐,使得從初創團隊到國際知名高校的研究者均能基于相同的基礎模型開展垂直領域創新,涵蓋法律文書、醫學診斷、蛋白質結構預測等專業場景。這種跨界合作不僅加速了技術進步,也為不同領域帶來了創新靈感。2025年1月29日Nature刊發的文章認為“優秀的開源模型會吸引越來越多的頂尖人才”。開源大模型因其源代碼、參數及訓練過程的透明性,使得社區能迅速發現并修復漏洞。正如Linux基金會報告中提到,開源模型的漏洞平均修復時間遠低于閉源系統。此外,透明研發有助于獨立機構進行安全性和準確性審計,增強模型公信力。
創新模式的“三層金字塔”結構
“三層金字塔”結構:基礎層——服務支持與生態構建。類似RedHat模式,即通過對開源模型提供企業級服務和支持來實現盈利。例如,智能繪圖工具Stability AI借助Stable Diffusion文生圖模型,向企業客戶提供SLA服務等級保障,其年營收突破上億美元。開源框架和完善的文檔支持,構建起強大的技術基石,使企業能夠穩定地采用和部署模型。中間層——模型迭代與平臺支持。開源模型推動了模型共享平臺的形成。例如:被廣泛使用的模型Hugging Face Transformer在開源社區Github平臺上已經獲得了超過42 000個收藏,每月被安裝超100萬次,有800人為Hugging Face Transformers貢獻了代碼,有效彌補了科學與生產之間的鴻溝。應用層——生態綁定與增值服務。開源策略不僅能夠增強產品自身的競爭力,而且能夠帶動周邊生態系統的發展。例如,阿里云將開源學習框架FederatedScope與云服務深度整合,使人工智能計算效率大幅提升;華為公司的MindSpore框架開源后,更推動了昇騰芯片出貨量的激增。這種生態效應形成了從基礎服務到應用增值的閉環商業模式。
技術民主化與開放生態構建
開源推動知識共享與技術民主化,開創了“微調即服務”等新業態,降低技術門檻,讓各國和各層次用戶均能共享最新的算法與工具。正如Meta公司首席人工智能科學家Yann LeCun所言,開放大模型使技術民主化提前數年,其為小型企業和初創者提供了利用70 B參數模型開發創新工具的機會。開放標準和協議的采用防止了技術鎖定,增強了不同系統之間的互聯互通,不僅降低了開發成本,還促進了跨平臺應用,為大模型在各個行業的廣泛部署提供了靈活性和適應性,DeepSeek大模型即是其中的受益者。2025年1月23日Nature刊發的文章指出,“DeepSeek這一廉價的開源模型為小型企業和高校提供了更加廣闊的空間和創新的可能性,為更加開放民主的科研生態作出重大貢獻”。
開源大模型面臨的風險與挑戰
開源模式在帶來技術民主化與產業賦能的同時,也面臨著數據安全、倫理風險和商業盈利等多重挑戰。數據安全與倫理風險。開源模式由于訓練數據和模型參數的公開,可能會被惡意用戶利用,從中提取敏感信息或濫用于生成虛假信息,可能對社會與公共安全產生不利影響。此外,模型生成的內容有時會反映出訓練數據中的偏見,如性別、文化、地域或政治偏見,這不僅會影響用戶體驗,更可能引發倫理風險。商業化與盈利模式困境。雖然開源模式極大降低了研發成本,但同時也可能使商業價值稀釋。企業如何在免費共享代碼的同時實現盈利,成為一個重大挑戰。部分公司通過提供增值服務、企業級支持和專有功能來彌補這一缺口,但如何平衡開放性與商業利益,仍需不斷探索。技術對齊與安全漏洞。開源模式在追求開放透明的同時,也需要解決對齊問題,即確保模型行為與人類期望一致。當前,許多大模型存在“幻覺”現象和不可預測的行為,這可能在高風險場景中帶來嚴重后果。此外,開源代碼容易被攻擊者檢視和利用,如何確保模型在開放環境下的魯棒性和安全性,是亟待解決的問題。
閉源模式的技術壁壘構建與企業級協同
閉源模式通過控制核心技術、數據和軟硬件體系,構建技術壁壘,實現從研發到商業落地的全鏈條優勢與企業級協同,保障企業和機構的商業利益。然而,這種模式同時也存在著技術壟斷和創新受限等風險。
數據飛輪效應優勢
閉源模式擁有海量與高質量的數據積累優勢,允許企業對數據來源、標注標準和反饋機制進行全流程控制,不斷優化模型性能,形成數據飛輪效應優勢。例如,OpenAI公司的GPT-4模型訓練數據池已突破13萬億詞元(Tokens)的規模,涵蓋了專業期刊、專利文獻等高質量語料,使得GPT-4模型在專業應用中具備了較強的競爭力。
軟硬協同的效能突破
閉源模式通過在硬件、軟件和數據層面實現緊密協同,可在同樣的資源下獲得更高的性能和更低的能耗,不僅降低了運行成本,還為企業級應用提供了穩定高效的解決方案。例如,谷歌公司依托自研TPU v5芯片構建了完整的閉源訓練體系,實現了硬件級的效率優化,Gemini Ultra模型在同等參數下的訓練能耗比開源方案降低38%,TPU芯片集群流水線優化方案使大規模并行訓練任務延遲大幅降低。
定制化服務的可靠保障
閉源模式能夠實現嚴格的版本控制和安全檢測,企業可根據自身需求對閉源模型進行專門微調和功能擴展,從而獲得完全符合業務場景的定制化產品,同時表現出較好的穩定性和安全性。例如,微軟公司與OpenAI公司的深度合作使得GPT-4模型的應用程序編程接口(API)能夠穩定集成到各類企業應用中,通過對核心技術和數據的保密,OpenAI公司不僅在ChatGPT應用上吸引了數億用戶,還通過云服務、API接口等方式實現了商業推廣,獲得較好的市場認可。
閉源模式面臨的風險與挑戰
閉源模式雖具備上述優勢,但與此同時,也存在技術壟斷、透明性不足等風險。如何在確保商業利益與技術創新的同時,實現適度開放、增強透明度,并平衡各方利益,是亟待探索并解決的關鍵問題。技術壟斷與封閉風險。閉源模式固然能保護企業商業利益,但也容易形成技術壟斷,限制市場公平競爭。由于核心技術和數據不對外開放,學術界和中小企業難以參與,這可能導致整個行業技術發展受限,并增加對單一供應商的依賴風險。透明性與信任危機。由于內部機制高度封閉,閉源大模型往往缺乏外部專家和開發者的參與,限制了集體智慧的碰撞和多元化創新。缺少內部細節認知,使得外界難以評估閉源模型的真實性能和潛在風險。例如,GPT-4的詳細架構和訓練數據未公開,令研究人員對其內部機制及可能存在的偏見、安全漏洞產生疑慮。持續創新的動力不足。研究結果表明,選擇閉源模式的企業,技術壁壘一旦形成,其創新動力和技術迭代速度通常會呈現減緩的趨勢,行業整體的技術進步速度也會受之影響。這個階段,往往會激發開源社區的反彈熱情,對閉源廠商造成壓力,迫使其不得不開源部分技術,以獲得市場認可。
前沿爭議與破局思考
開源與閉源大模型的困境
從數據版權角度來看,美國斯坦福大學人工智能研究所(HAI)2024年研究報告顯示,90%的開源模型存在“數據套娃”現象,這極有可能引發嚴重的版權爭議。法學專家勞東燕教授警告,如果不對數據來源進行溯源審計,整個人工智能產業將面臨系統性法律風險。這反映出在尊重開源文化的背景下,開源模型的數據使用缺乏規范和約束,沒有充分考慮到數據產權的歸屬和保護,違背了開源文化中對知識和數據合理使用的原則。
在模型評估方面,現有的主流基準測試存在嚴重偏頗。以2024年發布的MMLU-Pro基準測試數據集為例,其存在系統性偏袒閉源模型的現象,不同模型使用的提示詞差異顯著,答案提取規則也不一致,開源模型僅僅因格式偏差就會隨機扣分。這導致開源模型的真實性能難以得到公正的評估。
當前,人工智能領域正處于技術革新與產業變革的關鍵時期,開源與閉源大模型在推動技術創新和構建生態系統方面各有優勢。需要理性、客觀對待企業和機構的開源與閉源模式選擇,大模型“熱”發展的同時也需要“冷”思考,是采取“快一步”的策略還是“慢半拍”的戰略,不能一概而論。
破局之道
尊重開閉源文化并推動科技民主化。在解決數據版權爭議問題方面,DeepMind公司提出的“數據護照”機制值得關注。該機制通過區塊鏈記錄訓練數據產權,在模型推理時自動分配收益。這一機制不僅尊重了開源文化中數據共享的精神,也充分考慮到了數據提供者的權益,通過技術手段確保數據的來源可追溯、產權可界定,為開源模型的數據使用提供了一種可行的解決方案,使開源文化在合理的框架內得以發展。當前,許多高校、科研院所與企業正在改進現有的測試標準或方法,其目的是使測試對于開源模型和閉源模型更公平。這體現了科技民主化的要求,通過建立公平的評估體系,讓開源和閉源模型在同一起跑線上競爭,能夠充分發揮各自的優勢,促進人工智能技術的整體進步。只有在公平的環境下,才能讓更多的創新力量參與到人工智能的發展中來,實現科技的廣泛共享和共同進步。
有為政府與有效市場的協同作用。針對開源與閉源兩種技術模式的不同特點,政府、高校、科研機構與企業需探尋協同破局之道。政府可以通過制定合理的激勵政策和監管框架,尊重技術創新和市場基本規律,開拓創新空間的同時兜住風險底線,破解“一管就死、一放就亂”的困局,引導人工智能技術的健康發展。大模型等人工智能新技術和新應用,往往具有一定的復雜性和不可預見性,是典型的復雜系統,要運用復雜性科學和系統觀念的“涌現”思想合理應對??萍颊咧贫ǖ倪^程中,要盡量遵循“有所為、有所不為”的原則,營造適當寬松的創新生態環境,保持一定的定力、耐心和信心,緩解科研人員和機構的焦慮和壓力,建立合理的創新容錯機制,真正激活科研創新者的主動性、積極性和內驅力。通過建立科學的篩選機制,發現有潛力的創新性技術或團隊,并制定合理的技術轉化或推廣機制,調動高校、科研院所和企業等積極性,根據國家和市場需求以及創新者的自身利益,系統調整發展策略,實現政府和市場資源的有效配置。通過尊重創新機構自身選擇的開源與閉源模式、踐行科技民主化和發揮有為政府與有效市場的協同作用,平衡技術創新、商業利益與社會責任,有望找到解決開源與閉源大模型爭議的破局之道,推動人工智能技術與產業的健康可持續發展。
(作者:鄭曉龍,中國科學院自動化研究所中國科學院大學前沿交叉科學學院;李家彤,中國科學院大學前沿交叉科學學院?!吨袊茖W院院刊》供稿)







