<li id="44aaa"><tt id="44aaa"></tt></li>
<li id="44aaa"></li>
  • <li id="44aaa"></li><li id="44aaa"></li> <li id="44aaa"></li>
  • 分享到:
    鏈接已復制

    LANGUAGES

    新聞

    新聞直播 要聞 國際 軍事 政協 政務 圖片 視頻

    財經

    財經 金融 證券 汽車 科技 消費 能源 地產 農業

    觀點

    觀點 理論 智庫 中國3分鐘 中國訪談 中國網評 中國關鍵詞

    文化

    文化 文創 藝術 時尚 旅游 鐵路 悅讀 民藏 中醫 中國瓷

    國情

    國情 助殘 一帶一路 海洋 草原 灣區 聯盟 心理 老年

    首頁> 中國發展門戶網> 本網獨家>

    我國AI訓練數據生產流通的制約因素與應對策略研究

    2025-05-27 16:53

    來源:中國網·中國發展門戶網

    分享到:
    鏈接已復制
    字體:

    中國網/中國發展門戶網訊 訓練數據的規模和質量決定了人工智能發展的高度。端側模型和具身智能等技術路線的演進,對高質量、多模態和規?;臄祿Y源提出了更高要求。優質數據的可得性、真實性和多樣性,已成為人工智能技術持續突破的核心基礎。

    當前,我國人工智能在部分領域已取得顯著進展,但整體性能與世界頂尖水平仍有一定差距。除算力、人才、資金等因素外,訓練數據的供給質量和流通效率日益成為制約模型性能和行業創新的關鍵因素。我國訓練數據面臨“質量低、數量少、分布散”的突出問題。優質中文語料積累不足、公共數據流通不暢、垂直行業數據標注成本高企,加之版權與個人信息保護等監管障礙,使訓練數據的獲取、使用和共享成本居高不下。在此背景下,合成數據逐漸成為重要補充手段,但其在真實性和多樣性方面仍存在局限,難以全面緩解優質數據的結構性短缺問題。

    提升數據質量、促進數據流通,是我國在人工智能競爭中取勝的關鍵。數據要素的復制成本低、資產專用性強,對訓練數據的生產和流通形成了諸多制約。只有充分考慮數據要素的基本特性,制定針對性強的政策措施,才能為人工智能發展奠定堅實基礎,推動產業健康可持續發展。

    商業生態對訓練數據的影響

    人工智能技術的迅速發展,使得相關企業對優質數據的需求不斷攀升。但與此同時,這一需求的增長受到技術方案、商業應用和資本市場的深刻影響。

    訓練數據具有較強的資產專用性,往往為特定領域和任務定制,難以跨場景通用。例如,ChatGPT-o1和DeepSeek-R1等推理模型,在強化學習階段需要高質量的思維鏈數據作為“冷啟動”素材,這與以往所需要的數據大不相同。再如,一些國內的自動駕駛企業發現,訓練自動駕駛的端到端大模型,導致以前積累的路測數據只有大約2%可以使用,需要重新考慮數據標注方案。這些現象表明,技術方案直接決定了訓練數據的收集方式和標注流程,從而影響了訓練數據的市場需求。

    應用場景的開發狀況直接影響訓練數據的質量。目前,國內開放的大部分自動駕駛路測區域,難以涵蓋復雜路況,限制了數據的多樣性。此外,部分平臺企業在模型初步可用后,過度強調游戲、社交和廣告等場景的商業落地,導致模型停留在低質量數據的循環中,使得性能難以進一步優化。

    平臺和初創企業所面臨的結構性限制,抑制了探索前沿技術和獲取優質數據的動力。部分平臺企業因組織惰性和股東干預,傾向于將資源投入低風險項目,導致訓練數據的低水平重復。初創企業則受到風投資本短期趨利行為和“明股實債”對賭協議的影響,傾向于短期變現,忽視底層數據積累,造成總體技術水平始終落后于人工智能前沿水平的國家。

    總體來看,商業生態不僅影響著訓練數據生產和流通的市場需求,還影響著企業生產優質數據的動力。在監管合規壓力較大的環境中,只要技術方向明確、商業利潤可觀、資金投入預期清晰,即便優質數據本身的合規性較為模糊,行業存在一定的灰色地帶,企業依然有積極性從事這些數據的生產和交易。

    監管政策對訓練數據的影響

    在技術發展遭遇瓶頸、企業對技術和市場前景預期不明確的情況下,監管政策的重要性就會凸顯出來,影響訓練數據的生產和流通。監管政策帶來的不確定性,也會反過來影響數據行業的融資和市場規模??傮w來看,國內外監管政策對訓練數據的關注點,主要集中在知識產權和個人信息保護等方面。

    知識產權

    2023年7月,國家互聯網信息辦公室等七部門發布的《生成式人工智能服務管理暫行辦法》中,第7條明確規定,“使用具有合法來源的數據和基礎模型”“涉及知識產權的,不得侵害他人依法享有的知識產權”等。然而,按照現行的《中華人民共和國著作權法》(以下簡稱《著作權法》),相關企業必須事先獲得訓練數據中權利人的許可。如果堅持先許可后使用的原則,企業將面臨過高的許可成本?!吨鳈喾ā返?4條明確規定了版權作品合理使用的13種條件,但在人工智能模型訓練中使用版權作品的行為,仍處于法律適用的模糊地帶,尚無明確的豁免依據。

    一個引人注目的案例是秘塔AI公司與中國知網(CNKI)的版權糾紛。秘塔AI公司在使用中國知網學術資源搭建搜索系統時,未獲得中國知網的授權。中國知網認為秘塔AI公司侵犯了其著作權,而秘塔AI公司則主張其行為僅涉及知網論文的題錄和摘要,屬于合理使用。最終,該事件以秘塔AI公司宣布不再收錄知網內容而告終。

    部分國家都不同程度放寬了訓練數據在版權問題上的要求。以色列和日本在版權問題上較為激進,兩國行政部門均曾公開聲明,人工智能使用版權作品進行訓練,屬于“合理使用”的范圍。歐盟和英國也在相關法案中,單獨定義了文本和數據挖掘行為(text and data mining),并注明這一行為在版權法中的適用條件。日本和韓國的行政部門還出臺了詳細的合規指南,區分不同市場主體的法律責任,并提供具體的合規建議。

    個人信息保護

    個人信息保護和數據安全的監管,可能會增加數據采集、標注和人工智能等行業的合規成本,影響數據生產和流通的市場預期。在實際執行層面,數據企業主要面臨“難落實”和“缺細則”這兩個問題。

    “落實難”。監管法規中的個別條款在當前階段落實難度較大。對中小企業來說,由于資源限制,很難建立法規要求的內部風控和評估機制。當前法規對數據“匿名化”的要求過高且標準模糊,算法處理后可能遺漏極端情形,需要人工篩查,而中小企業難以負擔此類合規流程的高昂成本。在自動駕駛和機器人等領域,“匿名化”會降低圖像和視頻數據的質量,削弱人工智能模型的性能。訓練數據的生產鏈條尤為復雜,企業難以確保所有數據都獲得相關個人的知情同意,也難以判斷是否違反了數據收集的“最少必要”原則,這進一步加劇了企業的合規風險。

    “缺細則”。在“落實難”的情況下,企業急需更加明確的細則,以減少合規過程中存在的不確定性。例如,針對數據采集、標注、交易和使用等環節,“知情同意”和“最少必要”原則應當有例外和免責條款。除汽車行業的數據安全管理規定,其他行業尚未明確“重要數據”范圍,個人信息“匿名化”也缺乏明確的技術標準。此外,部分法規對“情節嚴重”的認定較為模糊,導致法律責任的判定依賴法官的自由裁量,也讓企業在實操中難以把握合規邊界。

    國外在監管法規方面的借鑒。歐盟。歐盟《通用數據保護條例》(GDPR)側重個人權利保護,企業收集數據通常援引“正當利益”(legitimate interest)條款,但監管機構對“正當利益”判定較為嚴格。實證研究顯示,GDPR頒布后,企業的合規成本上升,導致歐盟企業比北美地區企業平均減少了將近1/4的數據要素投入強度。北美。北美地區的個人信息保護立法,以美國加利福尼亞州最為典型?!都又菹M者隱私法案》(CCPA)和《加州隱私權法案》(CPRA)以促進數據流通為導向,采用“選擇-退出”(opt-out)機制,默認企業可以收集、出售和共享個人信息,但用戶有權拒絕企業的出售和共享行為。此外,北美地區與個人信息保護相關的多部法案,要求企業對數據進行“去標識化”處理,整體合規義務相對較輕,有助于降低企業的合規成本。其他國家。其他國家的監管也有值得借鑒的地方,例如:新加坡將“業務改進或研究目的”視為個人信息保護的例外情況;韓國則加強監管部門和利益相關者的溝通合作,通過司法解釋與合規指引等方式,推動個人信息保護與人工智能產業發展相協調。

    公共數據開發利用

    當前,各地公共數據交易機制在制度設計與實施環節均存在一定障礙,影響了數據流通效率和市場活力。體制內單位沉淀的數據,如醫療記錄、教育題庫、司法文書、工商登記、圖書史料等,具有較高的客觀性和準確性,是人工智能訓練數據的重要資源。2020年以來,各地紛紛建立政府主導的數據交易機構,作為公共數據授權運營產品的交易場所,以及為企業之間的數據交易提供撮合服務。但在實踐中,前置合規審查比較煩瑣,再加上相關法規仍有“難落實”和“缺細則”的地方,增加了場內交易成本。例如,某地數據交易所實行“不合規不掛牌,無場景不交易”的原則,一定程度上阻礙了更多企業進場交易。個別數據交易機構出于特定技術要求或合規目的,要求企業將數據提前存儲在交易所內,引發企業的不安全感,挫傷場內交易的積極性。雖然高價值的公共數據需要通過合規認證來保障交易標的的真實性,但當前場內交易的合規審查機制亟待優化。

    此外,公共數據的開發利用仍呈現孤島化的格局,阻礙了公共數據需求和價值的提升。數據要達到一定規模,才能創造足夠大的市場價值和需求。目前,公共數據由各地分散開發,授權定價碎片化,在監管上尺度把握不一致,相當于“高速公路上設置多個獨立經營的收費站”,增加了需求方整合各地公共數據的交易成本,會在無形中提高市場準入門檻,排斥可能在全國范圍內產生創新的潛在優質企業。個別地方政府在數字服務采購和授權運營過程中,容易產生隱性腐敗和不正當競爭,也會導致技術標準和公共數據市場的分割,形成數字經濟的“地方保護主義”。而目前數據行業的技術人才、具備數字經濟思維的領導干部,以及對公共數據的市場需求,都高度集中在沿海經濟發達地區和中央層面。如果讓各地區繼續自行探索,區域間差距將會越來越大?,F在經濟發達地區的試點探索已經有了一定成效,如事前統一授權、減少數源單位責任、建立收益掛鉤機制等。如果能將這些經驗總結推廣,就有望推動形成公共數據的全國統一大市場。

    促進訓練數據生產和流通的政策建議

    出臺產業政策和激勵措施,推動優質數據的生產

    鼓勵科教文衛機構生產開源數據,促進科研數據管理機構和開放平臺的統一。高質量的科研數據已成為人工智能模型訓練和科技競爭的關鍵資源。例如,獲得2024年諾貝爾獎、由英國DeepMind公司開發的人工智能模型AlphaFold,正是依托全球開放的生物蛋白質結構數據庫Protein Data Bank實現蛋白質結構預測的重大突破。與此同時,近期北美部分科研數據庫限制中國用戶的訪問權限,凸顯出科研數據在國際競爭中的戰略意義,也反映出我國建設自主科研數據體系的緊迫性。構建系統性的開放科研數據庫是一項長期工作,需要持續投入與制度保障??平涛男l機構擁有大量專業人才,是生產優質開源數據的重要力量。因此,建議在科教文衛機構的課題申請和考核中,增加數據集產出的考核權重,鼓勵科研人員原創、擴展和長期維護科研數據庫;并且,根據科研規律引入類似專利保護期的制度,激勵科研人員在合理期限內,依托原創數據產出科研成果。超過規定的保護期后,原則上應將數據庫向社會公開。此政策不僅適用于理工科,還應覆蓋人文社科領域的數據資源和課題成果,推動跨學科的數據共享和創新。此外,設立統一的科研數據管理機構,有助于規范數據的收集、存儲和共享,從而確保數據資源在更廣泛的科研領域得到有效利用。

    持續打造人工智能技術的應用場景,培育物聯網和新型硬件終端市場。擴展和豐富人工智能技術的應用場景,是積累優質數據資源的重要手段。人工智能企業通過產品和服務的實際應用場景,不斷收集用戶行為數據和反饋信息,為模型訓練和算法優化提供豐富的數據支撐。物聯網和新型硬件終端能夠超越文字、圖像、語音等傳統模態,收集更多維度的數據,是下一代人工智能的基礎。產業政策應繼續通過有條件的稅費減免、財政補助等形式,支持自動駕駛、增強現實技術(AR)、虛擬現實技術(VR)和智能機器人等新型終端設備進入實際應用場景,積累數據資源,優化模型性能。此外,企業數字化和工業互聯網是人工智能數據積累的重要場景,要利用龍頭企業和產業鏈鏈主企業的示范效應,帶動中小企業和傳統制造業企業的數字化轉型。

    完善數據安全的監管框架,促進優質數據的流通

    在監管調整方面,采取“寬進嚴出”的監管理念。促進數據要素生產和流通,需要將立法、司法、行政監管和產業政策緊密結合,進行通盤考慮。政策出臺應遵循合理的邏輯順序,建議優先推進立法和司法工作,針對具體問題設立免責條款、出臺司法解釋,結合公眾、行業和政府的需求,對涉及數據要素的法規進行動態調整。隨后,再由行政監管機構和行業組織聯合推動,完善合規指南,從而使產業政策在促進數據生產和流通方面,發揮更大的作用。我國對數據要素的監管政策較為全面,重視對上游要素和下游應用的監管,強調對事前、事中、事后環節的全鏈路監管。雖然對行業上游和事前環節的監管可以減少監管成本,但是我們需要審慎評估對技術和市場發展的影響。為了促進人工智能的創新發展,建議監管要采取“寬進嚴出”、包容審慎的理念,適當放寬對行業上游的算法、數據等生產要素在輸入端的監管,把監管重點放在行業下游的應用場景和輸出端的使用環節,從而有利于提升人工智能模型的性能水平。監管應當考慮不同市場主體的管理能力和有限責任,通過司法解釋、負面清單、合規指南等方式,適當放寬事前監管要求,落實事中事后監管,完善事后救濟措施。

    在訓練數據的著作權問題上,放寬“合理使用”原則的適用范圍,出臺司法解釋與合規指南。為進一步推動數據的廣泛使用和創新,建議在《著作權法》中放寬“合理使用”原則的適用情形。例如,參考部分發達國家和地區在知識產權法規中的實踐,對“文本和數據挖掘”的情形進行單獨定義,為版權作品的采集和使用提供例外和免責條款。司法機關可考慮對數據采集交易和人工智能版權糾紛案件進行集中審理,出臺司法解釋和指導性案例;以促進人工智能技術創新發展為宗旨,進一步明確“合理使用”的邊界。在立法和司法工作的基礎上,建議知識產權相關的行政機構可以與企業座談,調研域外國家經驗,出臺詳盡的合規指南。在合規指南中,可以針對人工智能模型的不同階段,區分版權持有方、模型開發者、服務提供商和模型使用者等不同市場主體的法律責任,并提供相應的合規建議,穩定企業預期。

    在個人信息保護和數據安全方面,設立免責條款和負面清單,強化事中事后監管,完善事后救濟措施。針對“訓練通用型人工智能”這一特定目的,進一步明確適用條款,放寬個人信息保護的限制。在匿名化技術尚未成熟的情況下,依照數據處理的難度和對模型性能的影響,可以允許訓練數據中包含部分個人信息,或者僅去除直接標識符,只要數據管理和模型輸出(包括由模型控制的機器行為)符合安全要求即可。如果包含重要數據,則需履行重要數據相關義務。開發者轉賣數據,應遵守一般市場主體的數據安全義務。與此同時,要加強人工智能安全技術的研發,以技術發展促進監管能力的提升。落實負面清單制度,在全國范圍內加緊推出各行業的重要數據目錄,盡快明確“匿名化”等數據處理流程的國家標準與合規指南。當前已有《重要數據識別指南(征求意見稿)》《數據出境安全評估辦法》《數據分類分級規則》《匿名化技術應用指南》等政策文件,但大多屬于原則性的指導,沒有細化到具體的數據名稱和技術細節。建議各行業主管部門可以整合試點經驗和行業反饋,動態調整負面清單和數據處理技術標準,由國家數據局等部門進行統一梳理整合。如果行業主管部門沒有重要數據需要管理,也最好進行明確說明。盡快明確小型個人信息處理者的定義,并出臺相應的合規指南??梢苑抡諝W盟網絡安全局出臺的《中小企業個人數據安全處理指南》,從企業營收、雇員數量、主營業務等方面,明確劃分標準,對合規義務、操作流程和具體監管案例進行梳理總結。制定總體性數據合規指南,梳理上位法細則與模糊條款。建議相關部門統一《中華人民共和國網絡安全法》《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》《中華人民共和國刑法》等法律框架下的解釋口徑,澄清過往司法案例中語焉不詳、容易讓企業誤解擔憂的地方,穩定企業的預期。 推動發展數據安全保險機制,提升中小企業合規風險應對能力?!毒W絡數據安全管理條例》明確,“鼓勵保險公司開發網絡數據損害賠償責任險種”??紤]到數據安全保險的風險核算,需要大量網絡安全相關的數據,建議保險公司可以通過數據交易、行業聯盟、兼并收購等方式,與網絡安全和云服務企業密切合作。在合作環節中,需要留意不正當競爭的可能性。在法規調整到位的基礎上,可以仿照北美地區2016年提出的《數據泄露保險法案》,通過采購準入、稅收優惠等方式,促進數據安全保險快速鋪開,幫助完善中小企業的數據安全內控機制,從長遠來看也有利于網絡安全技術的創新發展和中小企業的數字化轉型。

    加快建設國家級公共數據平臺,匯總整合各地各部門數據資源

    建設國家級公共數據平臺,實現公共數據開放和授權運營渠道的統一,形成數據要素的全國統一大市場。全國平臺能夠匯聚各地各部門的數據資源,提升公共數據價值,激發市場主體對公共數據的需求。需求量增加,單次授權價格就可以適當減少,企業進入市場的門檻就會降低。在授權機制上,建議各地各部門在平臺上公布高價值數據清單和字段。企業可以選擇全量數據,也可以選擇特定地區的部分數據或部分字段申請授權。同一份數據可以事前統一授權多個企業,發揮市場競爭的作用。繞過各地尺度不一的事前審查環節,改為全國平臺的統一審查,也是一種減少事前監管的方式。事中和事后的監管,可以由企業所在地政府分別執行,落實屬地和行業監管責任。全國平臺相當于各方共建的“數據開放和授權運營渠道”,為此國家可以建立基于數據要素貢獻的收益分配機制,調動各地各部門參與共建的積極性,中央在其中適當收取少量的“渠道費用”。同時,各地各部門仍可以保留自己建設的平臺,繼續進行政策層面的探索。全國平臺也可以和其他部委的產業政策進行聯動。例如,可以在平臺上“揭榜掛帥”,吸引企業和高校等機構共同研發數據相關的技術;也可以通過價格折扣等方式,對特定地區的公共數據授權運營進行政策傾斜。

    在技術層面,可以利用開源框架,統一公共數據平臺的技術標準。各地建設的公共數據平臺,在數據格式、數據接口、授權協議、運維管理等方面并不互通。本文建議,國家數據局可以利用已有的成熟開源框架,自上而下統一數據平臺的技術標準。國際上已有成功先例可供參考,例如:包括北美地區、英國、新加坡在內的30多個國家和地區,用“全面知識存檔網絡”(CKAN)或“基于Drupal的知識存檔網絡”(DKAN)等開源軟件,創建網站并發布公共數據集;北美地區的政府還自主開發了一系列轉換、處理和分析數據的開源工具,供各地各部門使用。從中央到地方都用同一套開源軟件創建網站和發布數據,可以讓國家利用統一的數據接口,將各地各部門更新的數據集及時匯總到全國平臺。這有利于在未來對各地各部門開放數據的行為進行準確考核和評估。如果對安全有顧慮,政府也可以聯合多方力量,自主開發開源框架;在開放平臺的基礎上,有條件地擴展支持授權運營功能,嵌入基于隱私增強技術的閉源模塊,提升數據傳輸和交易過程的安全性。

    在政府內部權責關系方面,建議在各地各部門設立數據專員崗位,落實公共數據開放的行政責任?!皵祿T”應當由各部門領導班子中熟悉業務的重要成員擔任,并且部門領導和成員都要經過專門培訓,把握數據處理分析的理念和基本框架,配合國家數據局和黨委分管領導開展工作。國家數據局在公共數據平臺的基礎上,統計匯總社會公眾需求,對各地各部門的數據開放效果進行考核評估。數據開放的考核,也應當擴展到高校、圖書館、檔案館等國有企事業單位。

    結語

    訓練數據是影響人工智能發展的關鍵要素。優質數據的供給與開放程度決定了人工智能模型性能的上限,也關系到人工智能行業的創新潛力和市場前景。只有通過技術、市場和政策的多方合力,才能促進訓練數據的生產和流通,夯實我國在全球人工智能競爭中的優勢,助力經濟社會高質量發展。

    受篇幅所限,本文尚未討論隱私增強技術和數據跨境傳輸的問題。目前,以隱私計算、區塊鏈、數據沙箱為基礎構建的“可信數據空間”已成為保障數據安全的重要技術路徑。然而,這一技術路線仍面臨資源消耗大、傳輸效率低、實施成本高等瓶頸問題,且依賴統一的技術標準和跨行業協同機制,短期內難以大規模推廣。在此類技術成熟之前,數據要素的監管政策應當保持靈活寬松,以及幫助企業降低數據相關的研發和應用成本,促進人工智能技術的創新和普及。

    數據跨境傳輸也是值得關注的議題。隨著我國企業國際化進程加速,跨境數據流通將成為支持人工智能等新質生產力“出?!钡年P鍵因素。根據DEPA和CPTPP等國際協定的要求,數據流通需要兼具開放性與安全性,這就意味著我國必須理順國內政策體系,加快接軌和引領國際規則,不斷增強數字經濟的國際競爭力和話語權,為全球人工智能和數據治理貢獻中國方案。

    (作者:林韜,香港中文大學 美國華盛頓大學政治學系?!吨袊茖W院院刊》供稿)

    【責任編輯:殷曉霞】
    返回頂部
    午夜无码福利18禁网站