<li id="44aaa"><tt id="44aaa"></tt></li>
<li id="44aaa"></li>
  • <li id="44aaa"></li><li id="44aaa"></li> <li id="44aaa"></li>
  • 分享到:
    鏈接已復制

    LANGUAGES

    新聞

    新聞直播 要聞 國際 軍事 政協 政務 圖片 視頻

    財經

    財經 金融 證券 汽車 科技 消費 能源 地產 農業

    觀點

    觀點 理論 智庫 中國3分鐘 中國訪談 中國網評 中國關鍵詞

    文化

    文化 文創 藝術 時尚 旅游 鐵路 悅讀 民藏 中醫 中國瓷

    國情

    國情 助殘 一帶一路 海洋 草原 灣區 聯盟 心理 老年

    首頁> 中國發展門戶網> 本網獨家>

    中國科學院自動化研究所推出新一代科學文獻解析工具

    2025-11-03 08:54

    來源:中國網·中國發展門戶網

    分享到:
    鏈接已復制
    字體:

    中國網/中國發展門戶網訊 近日,中國科學院自動化研究所“AI+科學”研究團隊正式推出新一代科學文獻解析工具——磐石?科學文獻解析器(S1-Parser)。該工具從底層算法出發,通過構建面向科學語義理解的多模態訓練體系與強化學習機制,在公式、文本、圖表等多元素協同解析上實現質的飛躍,為全球科研工作者提供真正“懂科學”的智能解析引擎。

    傳統光學字符識別(OCR)技術雖在通用文本場景中表現成熟,但在面對科學文獻——尤其是包含復雜公式符號、專業圖表、多模態排版與跨學科術語的學術論文時,存在識別錯誤、結構邏輯丟失、輸出格式單一等問題,難以支持科研自動化、知識圖譜構建、智能問答等下游任務的發展。科學文獻的識別不僅是字符的還原,更是語義結構的重建。為此,團隊摒棄了僅依賴通用視覺語言大模型的思路,轉而構建一套專為科學文獻場景量身定制的算法訓練范式。其核心在于三大技術支柱:全場景覆蓋的科學數據構建、多模態監督微調策略,以及面向科學文獻語義的強化學習優化機制。

    image.png

    模型篇章級文獻解析能力評測結果

    在數據層面,團隊系統性地采集并構建了覆蓋三大典型科學書寫形態的訓練語料:手寫體、數字排版體與紙質掃描體。手寫體數據涵蓋不同學者的筆跡風格、連筆習慣與輕微涂改等真實場景;數字排版體數據橫跨數學、物理、天文、工程、生物、計算機等多個學科,包含大量嵌套公式、特殊符號與復雜排版;紙質掃描體數據則兼顧高清與低質量樣本,模擬實際掃描或拍照中可能出現的模糊、傾斜、低分辨率等情況。所有數據均經過嚴格去噪、標準化標注與格式對齊,并通過均衡采樣策略確保模型在多樣場景下的泛化能力。這一“全形態、多學科、高質量”的數據基礎,為模型理解科學表達的復雜性提供了堅實支撐。

    image.png

    模型對于科學公式解析能力評測結果

    在模型訓練階段,團隊采用兩階段優化策略。首先,通過多模態有監督微調,使模型初步掌握文本、公式、表格、插圖等異構元素的聯合表征能力。在此基礎上,引入一種面向科學文獻語義的梯度強化學習策略優化框架。不同于傳統以字符準確率為導向的訓練目標,該強化學習策略優化框架專門設計了三重科學導向的獎勵信號:公式語法正確性、符號完整性與結構合理性。通過強化學習優化算法持續優化這些獎勵信號,模型不僅“看得清”,更能“理解對”,生成的公式在語義層面高度可靠,可直接用于符號計算、定理驗證等高階任務。

    據悉,研發團隊在多個科學文獻數據集上開展了系統評測,磐石?科學文獻解析器在篇章級解析、公式專項識別等任務中均展現出了國際領先水平。為了更好滿足科研需求,磐石?科學文獻解析器的輸出不僅包含高精度的文本與公式識別結果,還支持 JSON、Markdown 等結構化格式輸出,可無縫對接知識抽取、文獻重排版、智能問答等下游應用。目前,磐石?科學文獻解析器(V1.0)已正式開源,并作為核心組件集成于“磐石?科學基礎大模型”(ScienceOne),服務全球科研社區。下一步,研究團隊將持續拓展其對多模態科學內容的解析能力,并推動構建開放、協作的科學智能生態。


    【責任編輯:王虔】
    返回頂部
    午夜无码福利18禁网站