數據標注師:化“人工”為“智能”
人工智能訓練師於(yu) 2020年正式成為(wei) 新職業(ye) 並納入國家職業(ye) 分類目錄。2021年,《人工智能訓練師國家職業(ye) 技能標準(2021年版)》發布,數據標注員是人工智能訓練師的工種之一。
——————————
4年前,陳霞還是一名全職媽媽,也從(cong) 沒想到自己會(hui) 成為(wei) 人工智能領域中的一員。如今,31歲的她已經是一名資深的數據標注師了。
她參與(yu) 的是無人駕駛項目,負責在電腦上對車在道路上采集的現實交通場景的原始數據進行處理,將其轉化為(wei) 機器學習(xi) 可識別的專(zhuan) 業(ye) 數據。
“比如道路上的各種障礙物、建築、綠植,各類車道線以及行人等,我們(men) 要把這些人、物標出來,我們(men) 就是無人駕駛車的眼睛,告訴它們(men) 看見的東(dong) 西是什麽(me) ,應該怎麽(me) 去行駛。”陳霞這樣描述著她的工作。
有多少智能,就有多少人工
“數據標注是機器感知現實世界的起點,是大部分人工智能算法得以有效運行的關(guan) 鍵環節。”百度智能雲(yun) 數據標注基地業(ye) 務產(chan) 品負責人胡馳說,簡單來說,數據標注是對未經處理的語音、圖片、文本、視頻等數據進行特征標簽,將非結構化的數據轉變為(wei) 機器可識別的結構化數據,使機器通過大量學習(xi) 這些數據,化“人工”為(wei) “智能”。
數據標注師是伴隨人工智能發展誕生的新職業(ye) ,人工智能的進步離不開數據的標注。隨著中國人工智能產(chan) 業(ye) 的高速發展,數據標注師這個(ge) 新職業(ye) 的需求及人數也在壯大。作為(wei) 人工智能的“啟蒙老師”,數據標注行業(ye) 流行著一句話,“有多少智能,就有多少人工”。
目前,數據標注不僅(jin) 服務於(yu) 自動駕駛行業(ye) ,還服務於(yu) 醫療保健、智能安防、新零售等場景。
帥雙雙是一名醫療數據標注師,他的工作主要是對醫療類問答進行標注,糾正生成式人工智能對醫療相關(guan) 問題的解答,主要用於(yu) 在線問診等場景。他介紹說,“比如向AI提問心髒病的並發症有哪些,我們(men) 要從(cong) 它的多個(ge) 回答中標注出符合問題的選項。有時,AI的回答雖然正確,但是語句不通順、不清晰,我們(men) 也要對此進行標注,通過這些操作,綜合培養(yang) AI的回答係統。”
AI技術的落地應用在很大程度上緩解了醫療資源緊張、地區分布不均等問題,提升了醫療體(ti) 係的整體(ti) 運行效率。數據標注有望在增強人工智能在醫療保健領域的應用方麵發揮重要作用。
胡馳表示,目前,人工智能技術不斷演化、技術與(yu) 行業(ye) 場景融合不斷泛化,這些都需要大量的數據支撐,會(hui) 對數據產(chan) 生許多新的需求。數據標注也從(cong) 早期的相對通用數據向專(zhuan) 業(ye) 化、複雜化方向演進。越來越多的細分場景,需要更多定製化模型進行迭代訓練,這也讓數據標注師麵臨(lin) 更多考驗,“未來,數據標注師會(hui) 伴隨人工智能的發展不斷成長與(yu) 變化,具備較長的職業(ye) 生命周期與(yu) 上升空間。”
數據標注師需求多元化 門檻高低各不同
天眼查數據顯示,目前我國有2000餘(yu) 家與(yu) “數據標注”相關(guan) 的公司。其中,成立1-5年的占比24.2%,成立10年以上的占比50.8%。
人工智能訓練師於(yu) 2020年正式成為(wei) 新職業(ye) 並納入國家職業(ye) 分類目錄。2021年,《人工智能訓練師國家職業(ye) 技能標準(2021年版)》發布,數據標注員是人工智能訓練師的工種之一。
德勤發布的《2022年人工智能基礎數據服務白皮書(shu) 》顯示,2022年中國人工智能基礎數據服務市場規模為(wei) 45億(yi) 元,預計2027年市場規模將達到130億(yi) -160億(yi) 元。胡馳認為(wei) ,人工智能技術的迅猛發展,帶來了大量AI算法的訓練需求,這推動了數據標注產(chan) 業(ye) 的快速增長,人工智能訓練師的規模也由此快速增長。
數據標注工具使用戶能夠通過向數據添加屬性標簽或對其進行標記來提高數據的價(jia) 值。使用標注工具的主要好處是數據屬性的組合使用戶能夠在單個(ge) 位置管理數據定義(yi) ,而無需在多個(ge) 地方重寫(xie) 類似的規則。
大數據的興(xing) 起和大型數據集數量的激增,也需要使用人工智能數據標注領域的技術。螞蟻公益基金會(hui) 副秘書(shu) 長黃慶委表示,數據標注行業(ye) 有望受益於(yu) 對機器學習(xi) 改進需求的不斷增長,以及對先進自動駕駛技術投資的不斷增加。
對於(yu) 未來,帥雙雙表示,隨著數據行業(ye) 的發展,未來行業(ye) 的門檻會(hui) 越來越高。人工智能應用場景在不斷細分,數據分類也更加精細化、複雜化,作為(wei) 數據標注師必須不斷學習(xi) 以滿足行業(ye) 發展需求。
胡馳表示,數據標注行業(ye) 對人才需求具有多元性,不同的標注數據與(yu) 場景,對人員要求也呈現出一定的梯度分布的特征。較為(wei) 低階的標注如標點、劃線等,對標注人員的要求往往不高,普通人經過培訓即可勝任;中高階的標注,如對自動駕駛、大模型等的標注,則對標注人員的要求更高、更專(zhuan) 業(ye) 。而一些細分複雜場景可能會(hui) 需要更專(zhuan) 業(ye) 、更高學曆的數據標注師來提供數據服務。胡馳認為(wei) ,“未來,隨著人工智能的不斷發展,數據標注可能將從(cong) 勞動密集型產(chan) 業(ye) 轉向技術型產(chan) 業(ye) 。”
中青報·中青網記者 高蕾 來源:中國青年報
版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。