中國科技創新“乘”數直上
當今時代,數據已成為(wei) 重要的創新要素。人工智能大模型、新材料創製、生物育種、基礎科學研究等都離不開數據的支撐。
國家數據局等17部門近日印發《“數據要素×”三年行動計劃(2024—2026年)》,明確開展“數據要素×科技創新”行動,從(cong) 推動科學數據有序開放共享、強化高質量科學數據資源建設和場景應用、以科學數據助力前沿研究、以科學數據支撐技術創新、以科學數據支持大模型開發、探索科研新範式等方麵闡述了數據要素與(yu) 科技創新相結合的著力點。
從(cong) 支持基礎研究,到助力前沿技術如人工智能的發展,再到推動科研方法的變革,借著“數據要素×”三年行動計劃的“東(dong) 風”,中國的科技創新正在“乘”數直上。
建好“軟硬件”
推動科學數據有序開放共享,促進重大科技基礎設施、科技重大項目等產(chan) 生的各類科學數據互聯互通,支持和培育具有國際影響力的科學數據庫建設,依托國家科學數據中心等平台強化高質量科學數據資源建設和場景應用,是“數據要素×科技創新”行動的重要目標之一。
建好相關(guan) “軟硬件”,各地正在積極布局。
2024年,北京將推動算力中心、數據訓練基地、國家區塊鏈樞紐節點等一批重大項目落地。
江蘇將體(ti) 係化推進5G、千兆光網規模部署,支持蘇州國家級互聯網骨幹直聯點建設,加快智能算力、邊緣計算等算力設施布局。
四川提出適度超前建設數字信息基礎設施,加快建設“東(dong) 數西算”工程國家樞紐節點,建設全省算力調度服務平台,構建算力、存力、運力一體(ti) 化算網融合發展體(ti) 係。
山東(dong) 提出部署高性能智能計算中心,統籌布局通用和垂直大模型算力,累計建成5A級省級新型數據中心25個(ge) 以上,智能算力比例達到30%,建成“山東(dong) 算網”。支持濟寧建設魯南算力中心。深入實施“雙千兆”網絡係統工程,打造典型應用項目500個(ge) 以上,新開通5G基站4萬(wan) 個(ge) 。
“硬件”設施加強,“軟件”設施也需要提升。
“互聯網是數據流通、匯聚的平台,是數字經濟時代基礎設施的關(guan) 鍵。”中國科學院院士梅宏表示,需要加快構建數聯網和數據空間等新基礎設施。
2021年,中國科學院發布了一款具有國際化服務能力的開放的通用型科學數據存儲(chu) 與(yu) 發布平台——科學數據銀行(ScienceDB)。
科學數據銀行由中科院計算機網絡信息中心自主研發,是一個(ge) 論文關(guan) 聯數據存儲(chu) 平台,能夠為(wei) 論文關(guan) 聯數據的匯聚、管理、開放、共享提供高效的解決(jue) 方案,為(wei) 落實科研誠信、培育共享文化、加快數據流轉和促進國際合作提供平台和服務保障。
科研人員可以把各自收集整理的科學數據在科學數據銀行裏進行儲(chu) 存和出版,而科學數據銀行通過吸納“數據存款”,“變小錢為(wei) 大錢,變死錢為(wei) 活錢”,把分散在個(ge) 人和集體(ti) 中的數據資源集中起來,使其更容易被發現、訪問、互操作和重用。同時,學術論文投稿前,科研人員也可以將論文數據上傳(chuan) 到科學數據銀行。
截至今年2月2日,科學數據銀行共收集了開放數據集820多萬(wan) 個(ge) ,平台訪問量超過7億(yi) 次。
開發大模型
開發人工智能大模型是“數據要素×科技創新”行動的另一個(ge) 重要目標。
《“數據要素×”三年行動計劃(2024—2026年)》中提出,以科學數據支持大模型開發,深入挖掘各類科學數據和科技文獻,通過細粒度知識抽取和多來源知識融合,構建科學知識資源底座,建設高質量語料庫和基礎科學數據集,支持開展人工智能大模型開發和訓練。
近年來,中國在大模型領域擁有良好的算力基礎和廣闊的市場,國產(chan) 大模型頻頻亮相、加速迭代。工業(ye) 和信息化部賽迪研究院數據顯示,目前,中國已有超過19個(ge) 大語言模型研發廠商,其中,15家廠商的模型產(chan) 品已經通過備案。
憑借語言理解、邏輯推理、知識問答、文本生成等通用能力,這些大語言模型產(chan) 品一經推出,便受到用戶的歡迎。
“科技創新實現新突破。訊飛星火認知大模型處於(yu) 全國領先水平。”這是寫(xie) 進今年安徽省《政府工作報告》中的一句話。
訊飛星火是科大訊飛公司在2023年5月正式發布的新一代認知大模型,從(cong) 發布至今曆經多次迭代,不斷升級核心能力的技術底座,持續賦能各行各業(ye) 。目前,訊飛星火在國務院發展研究中心國研經濟研究院、新華社研究院中國企業(ye) 發展研究中心等機構的多次評測中獲得肯定,被譽為(wei) 中國優(you) 質的國產(chan) 大模型。
“隻有把大模型建立在完全自主可控的平台上,我們(men) 才能把通用人工智能時代的發展主動權牢牢掌握在自己手裏。”科大訊飛研究院院長劉聰對記者說。2023年10月,在科大訊飛全球1024開發者節上,科大訊飛宣布聯合華為(wei) 打造國產(chan) 大模型算力底座“飛星一號”平台,在此基礎上,訊飛星火大模型開啟了更大規模的訓練。
目前,基於(yu) “飛星一號”的訊飛星火V3.5已完成訓練,並於(yu) 1月30日發布。升級後的訊飛星火V3.5在邏輯推理、語言理解、文本生成、數學答題、多模態等方麵的能力均顯著提升。同時,訊飛還發布了星火語音大模型和開源大模型。
“大模型帶來了語音技術發展的全新機會(hui) 。”劉聰說。讓機器具備學習(xi) 、推理和決(jue) 策的能力,就是認知大模型要幹的主要工作。
“我們(men) 認為(wei) ,未來人工智能大模型的發展可能會(hui) 有以下四個(ge) 趨勢。”劉聰告訴記者,“第一是多模態和多語言。站在未來通用人工智能發展的角度,認知智能大模型是核心基礎,基於(yu) 此,語音、圖像、視頻等其他數據可以對齊到統一語義(yi) 空間中,結合插件工具實現多模態係統呈現。第二是可信可解釋。這就需要保證海量數據的源頭質量、大模型本身能力及係統方案的不斷優(you) 化迭代,加上國家出台的監管政策和法律法規護航。第三是向係統性創新方向發展。基於(yu) 單點技術組合的軟硬一體(ti) 化創新在AI(人工智能)領域已有產(chan) 品、應用的先例,在大模型能力支持下,我們(men) 需要聯合多種優(you) 勢技術進行係統性創新,並關(guan) 注其所帶來的護城河效應。第四是軟硬件一體(ti) 全國產(chan) 化發展。目前,訊飛投入並深度參與(yu) 到國產(chan) AI芯片軟件生態建設中,在訓練側(ce) 和推理側(ce) 已有一定的收獲和進展。”
推進數智融合
智能檢索、關(guan) 鍵詞篩選、最新醫訊獲取……依靠大數據與(yu) 人工智能帶來的便捷功能,用戶隻需動動手指,就可輕鬆體(ti) 驗這些服務。2023年10月,江蘇省泰州市大健康產(chan) 業(ye) 鏈標準雲(yun) 享站正式上線,以百萬(wan) 量級標準數據為(wei) 企業(ye) 提供正版現行、實時更新、用戶體(ti) 驗更加友好的信息服務支撐。
這是泰州推動數字化、智能化技術與(yu) 標準深度融合的創新實踐。縱觀泰州醫藥健康產(chan) 業(ye) ,從(cong) 線上到線下,從(cong) “實驗室”到“車間”,“智改數轉(智能化改造、數字化轉型)”的成果紛紛走向“生產(chan) 線”。
走進泰州醫藥高新區(高港區)的江蘇大同盟製藥有限公司小容量注射劑生產(chan) 車間,全自動生產(chan) 線有序作業(ye) ,藥品生產(chan) 高效、精準、穩定;揚子江藥業(ye) 集團旗下生產(chan) 工廠通過“機器換人”和信息係統集成管理等一係列“智改數轉”措施,使全流程生產(chan) 更加智能化、數字化;江蘇龍鳳堂中藥有限公司形成了一整套從(cong) 中藥材前期處理到提取的現代化解決(jue) 方案,在中藥流程智能製造標準化建設領域打造了“智改數轉”的樣板。
泰州的實踐說明,當前,數據已成為(wei) 醫藥健康產(chan) 業(ye) 的重要要素,數字技術也已成為(wei) 生物醫藥創新發展的必要工具。數智融合,對賦能醫藥健康產(chan) 業(ye) 創新發展的作用不可或缺。
在“數據要素×科技創新”行動中,推進數智融合也是重要舉(ju) 措之一。《“數據要素×”三年行動計劃(2024—2026年)》提出,以科學數據支撐技術創新,聚焦生物育種、新材料創製、藥物研發等領域,以數智融合加速技術創新和產(chan) 業(ye) 升級。
近年來,人工智能、區塊鏈、深度學習(xi) 、物聯網等新一代數智技術的集成迭代與(yu) 擴散,已滲透到研發設計、生產(chan) 製造、客戶服務等各個(ge) 環節,對生產(chan) 技術、生產(chan) 方式帶來全角度、全方位、全鏈條的改造,全麵提升產(chan) 業(ye) 的自動化、數字化和智能化水平,為(wei) 推動數智融合應用、加快形成新質生產(chan) 力提供了關(guan) 鍵驅動力。
西北大學經濟管理學院教授鈔小靜認為(wei) ,數據要素作為(wei) 數字經濟時代以非物質形態被計算機設備存儲(chu) 和處理的新型關(guan) 鍵生產(chan) 要素,具有非競爭(zheng) 性、低複製成本、非排他性、強外部性等技術和經濟特征,可以被不同主體(ti) 重複利用,通過解構重組、匯聚融合等方式產(chan) 生“數據+算法+算力”融合價(jia) 值,為(wei) 夯實數智融合內(nei) 在形態、加快形成新質生產(chan) 力提供了基礎性重要資源。
“一方麵,數據要素與(yu) 傳(chuan) 統生產(chan) 要素的有機融合應用,豐(feng) 富了數智融合的表現形態,將數智融合的方式由地理空間轉向為(wei) 數字空間。”鈔小靜說,“另一方麵,數據要素在傳(chuan) 統生產(chan) 要素的再配置、再組合中發揮‘媒介’作用,產(chan) 生了新的要素加工模式,催生了數智融合新形態。”楊俊峰
版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。