一個數據產品的交易曆程(一線調查·擴內需 暢循環)
數據,作為(wei) 一種新型生產(chan) 要素,已快速融入生產(chan) 、分配、流通、消費等各個(ge) 環節。
黨(dang) 的二十大報告提出,構建全國統一大市場,深化要素市場化改革,建設高標準市場體(ti) 係。今年6月,習(xi) 近平總書(shu) 記在主持中央全麵深化改革委員會(hui) 第二十六次會(hui) 議時強調:“促進數據高效流通使用、賦能實體(ti) 經濟,統籌推進數據產(chan) 權、流通交易、收益分配、安全治理,加快構建數據基礎製度體(ti) 係。”
數據交易是構建數據要素市場的關(guan) 鍵一環。今年2月至7月,通過北京國際大數據交易所(以下簡稱“北數所”),北京海天瑞聲科技股份有限公司和禾多科技(北京)有限公司完成了一筆人工智能算法訓練數據產(chan) 品交易。一個(ge) 數據產(chan) 品從(cong) 采集、處理到交易、應用的過程是怎樣的?如何探索建立合規高效的數據要素流通和交易製度?記者近日追蹤了這次數據產(chan) 品交易的全程,一探究竟。
數據采集——
數據越真越全越精,越能提升人工智能“聰明”程度
打左轉向燈起步、遇到過路行人減速繞行……在北京市石景山區的首鋼園自動駕駛服務示範區內(nei) ,一輛輛自動駕駛汽車可以精準識別路況,做到安全起步、行駛、落客。
“隻要在手機應用程序上下單,車輛就自動開到眼前來;點擊小程序的‘開始行程’按鈕,車輛就啟動了。”北京市朝陽區居民王女士對自動駕駛技術既讚歎不已,也十分好奇,“這左拐右拐、上坡下坡的,它是怎麽(me) 判斷的呢?”
“自動駕駛的實現,是基於(yu) 人工智能技術、先進傳(chuan) 感器、高精地圖等進行的技術‘大綜合’。人工智能技術就相當於(yu) 自動駕駛係統的‘大腦’。”海天瑞聲是一家人工智能數據資源和服務提供商,公司副總經理李科告訴記者,為(wei) 了使這個(ge) “大腦”更“聰明”,就需要運用各類數據來訓練人工智能算法,“人工智能算法做出判斷大致要經曆‘接收數據’‘總結規律’‘形成判斷’3個(ge) 環節,數據樣本類型越全、精度越高、針對性越強,算法就會(hui) 越聰明,自動駕駛係統的智能化水平就會(hui) 越高。”
這次數據產(chan) 品交易中,自動駕駛解決(jue) 方案提供商禾多科技公司需要自己采集真實場景的原始數據,這些數據由海天瑞聲進行專(zhuan) 業(ye) 處理後,形成人工智能算法訓練數據,用於(yu) 自動駕駛係統研發。
如何保證數據“原材料”的高質量?有效采集至關(guan) 重要。
“數據采集要盡可能接近真實路況。”禾多科技副總裁戴震介紹,在近期的一次數據采集中,工程師駕車從(cong) 北京市順義(yi) 區出發,途經望京區域、機場高速和4個(ge) 停車場,行駛路程100多公裏,現場采集到了道路狀態、交通信號和標識、車輛和行人目標以及天氣環境等信息。
“多位專(zhuan) 業(ye) 工程師駕駛數據采集車,車上安裝了雷達、攝像頭和傳(chuan) 感器用以收集數據。采集到的數據經過合規處理,會(hui) 被記錄在車載硬盤內(nei) ,之後通過網絡閉環上傳(chuan) 至數據處理係統,為(wei) 下一步的篩選、標注做好準備。”戴震說。
據介紹,海天瑞聲與(yu) 禾多科技今年完成交易的數據產(chan) 品,其中許多涉及停車場景。“為(wei) 人工智能算法提供的訓練數據,針對性越強,越有助於(yu) 提升其在特定方麵的智能化水平。”戴震說,有時根據客戶的需求,為(wei) 了提升場景的針對性,團隊還會(hui) 專(zhuan) 門設置一些具體(ti) 的情境。
“例如,為(wei) 了提升自動泊車係統對三輪車這類交通工具的感知能力,我們(men) 會(hui) 故意在停車場內(nei) 布置一些三輪車,然後安排工程師駕車前去采集數據,再將這些數據處理後用於(yu) 人工智能算法迭代。”戴震說。
數據處理——
由專(zhuan) 業(ye) 團隊協作完成,創造規模可觀的就業(ye) 崗位
采集原始數據隻是第一步,接下來需要技術人員對數據進行處理,讓人工智能算法可以“讀懂”這些數據。
處理數據的辦法主要是進行數據標注。“雖然我們(men) 可以在原始視頻上看出哪裏是車道線、哪裏是停車位,但如果不加以標注,人工智能算法是無法讀懂這些數據的。”李科說,數據標注的基本原理是將原始視頻數據分為(wei) 若幹幀,由技術人員運用公司自研的智能化數據處理平台及相關(guan) 標注工具在每一幀上標注出相應內(nei) 容,“例如,標出汽車的位置在哪裏,某個(ge) 交通標誌是什麽(me) 意思,等等。”
在海天瑞聲公司總部,計算機視覺業(ye) 務部高級項目經理秦子雄向記者現場演示了數據標注的步驟:
“我們(men) 使用這個(ge) 矩形框將這輛汽車框起來,算法後期就會(hui) 讀‘明白’。”
如何精確定位這輛汽車?
“那就要使用接地線這個(ge) 輔助工具,先確定幾個(ge) 汽車輪廓上的關(guan) 鍵點,再畫出數條接地線垂直於(yu) 地麵,這樣就可以確定汽車輪廓投影在地麵上的具體(ti) 位置。”
…………
幾番操作下來,經過各種線和框“勾勾畫畫”,一幀視頻圖像標注完成。
數據標注不是一項輕鬆的工作,需要專(zhuan) 業(ye) 的技術團隊協作完成。“為(wei) 了順利完成這次與(yu) 禾多科技的交易,我帶領100多人的數據標注服務團隊工作了近5個(ge) 月,標注完成了十幾萬(wan) 幀的原始視頻數據。”秦子雄說,在這個(ge) 過程中,需要通過培訓幫助團隊人員熟練掌握規範,還要依靠公司平台管理團隊、追蹤工作進度、交付最終成果,“數據標注是一個(ge) 既有技術含量,也需要較多人力投入的工作,下一步公司將繼續加大數據處理平台的研發力度,提升數據標注的智能化水平。”
從(cong) 宏觀層麵上看,人工智能產(chan) 業(ye) 的快速發展催生了對數據標注服務的龐大需求。《2022人工智能基礎數據服務產(chan) 業(ye) 發展白皮書(shu) 》顯示,2022年,我國人工智能基礎數據服務市場規模將達47.8億(yi) 元,預計2025年這一數字將突破120億(yi) 元。目前,許多數據服務企業(ye) 在中西部地區建立了數據標注基地,為(wei) 當地創造出可觀的高質量就業(ye) 崗位。
數據交易——
建立數據流通信任機製,實現數據“上市有審核、采買(mai) 有資質”
海天瑞聲與(yu) 禾多科技能順利完成這次數據產(chan) 品交易,離不開北數所的撮合與(yu) 服務。
“在去年3月底北數所成立之初,我們(men) 就受邀加入了其牽頭成立的北京國際數據交易聯盟,並在去年9月至10月上線了幾款數據產(chan) 品。”李科說,數據交易所在國內(nei) 還屬於(yu) 新生事物,海天瑞聲作為(wei) 首批“嚐鮮”的企業(ye) 之一,在與(yu) 北數所的交流合作中,也在不斷更新對數據交易模式的認知。
“過去,我們(men) 尋找客戶主要靠廣告推廣、參與(yu) 展會(hui) 等方式,得一個(ge) 客戶一個(ge) 客戶地談,屬於(yu) ‘點對點’的模式。”李科說,近一年多來,隨著買(mai) 家在北數所數據交易平台上相繼出現,企業(ye) 有條件從(cong) “點對點”過渡到“點對麵”模式,依靠交易平台提供的撮合服務來獲取客戶。
北數所相關(guan) 負責人郎佩佩介紹,這兩(liang) 家企業(ye) 都是北數所的合作夥(huo) 伴。了解到海天瑞聲在數據領域的綜合實力後,禾多科技決(jue) 定與(yu) 其開展合作。相關(guan) 數據處理產(chan) 品於(yu) 今年2月至7月分兩(liang) 期交付完成,合同在北數所進行了備案。
除了撮合供需雙方外,北數所還要對數據交易主體(ti) 、數據來源、交易產(chan) 品、數據用途等進行合規審核。郎佩佩說:“北數所要研判這些人工智能訓練數據的來源是否合規,數據產(chan) 品交付後的用途是否正當等。”
目前,北數所構建了由數據提供方、購買(mai) 方、中介服務方和交易場所組成的北京國際數據交易聯盟,合力打造數據要素市場體(ti) 係。統計顯示,北京國際數據交易聯盟已吸納大型商業(ye) 銀行、電信運營商、互聯網企業(ye) 、跨國機構等150多家機構或企業(ye) 。“隻有實現確權、流通和交易後,數據資源才會(hui) 轉變成可以量化的數字資產(chan) 。”北京金控集團黨(dang) 委書(shu) 記、董事長、北數所董事長範文仲表示,數據交易所要做的不僅(jin) 是撮合交易,更應該建立一套技術、規則、機製、流程健全的數據流通信任機製,實現“上市有審核、采買(mai) 有資質”的數據交易良性生態。
數據應用——
訓練人工智能算法,賦能實體(ti) 經濟、提升用戶體(ti) 驗
在地下車庫,上海市長寧區居民沈先生體(ti) 驗了一把愛車的“記憶泊車”功能。
“開啟‘記憶泊車’功能後,我駕車從(cong) 地下車庫的入口出發,先完整地進行了一遍泊車入庫。這時車輛的自動駕駛係統已經‘記住’了泊車路線。待再次出發時,車輛便由係統自動操控,按照設定的路線從(cong) 車庫入口駛入車位。”沈先生說。
“記憶泊車”“跨層泊車”等高階自動駕駛功能的實現,是人工智能算法通過訓練不斷“進化”的結果。“經過幾個(ge) 月的迭代升級,我們(men) 的人工智能算法在泊車等場景上的智能化水平有了較大提高。”戴震說,目前企業(ye) 研發的自動泊車係統已經在廣汽集團的量產(chan) 車上得到應用,將為(wei) 消費者帶來更好的出行體(ti) 驗。
將采集到的原始數據進行篩選、標注,把處理完成的數據用於(yu) 訓練人工智能算法,最終賦能實體(ti) 經濟、提升用戶體(ti) 驗。業(ye) 內(nei) 人士表示,數據流通的這一過程折射出近年來我國數字經濟的蓬勃發展態勢,也將促進各行業(ye) 更好地應用數據要素。
“當前,我國數字經濟發展成效顯著,但適應數字經濟發展的規則製度體(ti) 係仍有待健全。” 浙江大學國際聯合商學院數字經濟與(yu) 金融創新研究中心聯席主任盤和林說,下一步,應加快出台數據要素基礎製度及配套政策,推進公共數據、企業(ye) 數據、個(ge) 人數據分類分級確權授權使用,構建數據產(chan) 權、流通交易、收益分配、安全治理製度規則,統籌推進全國數據要素市場化配置改革。
培育數據要素市場逐步取得了成效。“有了這次成功交易,我們(men) 和海天瑞聲將繼續深化合作,未來雙方有望達成更大量級的合作。”戴震說。
《 人民日報 》( 2022年11月28日 18 版)
版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。