新利平台 > 即時新聞 > 地方

讓人工智能看懂手語(解碼·走近新職業)

發布時間:2022-07-12 15:39:00來源: 人民網-人民日報

  核心閱讀

  一邊是聽障人士打著手語,一邊是屏幕上自動“翻譯”出文字。為(wei) 了讓更多聽障人士被“聽見”,天津理工大學鯨言創益無障礙智能科技研發團隊用近5年時間,構建起視頻語料庫,研發“複雜場景下中國手語實時翻譯係統”,讓人工智能技術帶給人們(men) 更多便利。

  攝像頭前,張益彬左右手交替揮舞,嘴角伴隨手語動作微微上揚,一旁的顯示屏上,“陽光總在風雨後”7個(ge) 字立刻顯示出來……

  張益彬是天津理工大學聾人工學院網絡工程專(zhuan) 業(ye) 2019級學生,也是該校鯨言創益無障礙智能科技研發團隊的成員。在這個(ge) 近60人的團隊中,超過一半成員是和張益彬一樣的聽障學生,他們(men) 用近5年時間構建起一個(ge) 包含30餘(yu) 萬(wan) 條視頻的語料庫。如今,團隊打造的“複雜場景下中國手語實時翻譯係統”即將落地應用。

  大膽嚐試,將手語實時翻譯為(wei) 語音或文字

  2006年,袁甜甜成為(wei) 天津理工大學聾人工學院計算機係的一名教師,對她來說,教學最大的困難是交流障礙。

  當時,語音識別軟件尚未問世,學生又都是聽障人士,袁甜甜隻能硬著頭皮自學手語,“一堂課下來,手舞足蹈,經常滿頭大汗,一望台下,學生們(men) 還是一臉茫然。”袁甜甜說,向學生傳(chuan) 遞信息很難,難上加難的是了解學生的想法。

  第二次全國殘疾人抽樣調查數據顯示,我國約有聽障人士2780萬(wan) 人。“時至今日,手語仍是聽障人士的‘母語’。”袁甜甜說,盡管近年來語音識別軟件普及,但表達的邏輯出發點始終繞不開健聽人,“對於(yu) 聽障人士來說,聽懂是一方麵,但他們(men) 最渴望的,還是被‘聽見’。”

  2016年底,手語識別係統的雛形開始在袁甜甜腦海中清晰起來。“聽障人士在攝像頭前打出手語,視頻畫麵經過計算機的分析處理,轉換為(wei) 文字或者語音。”袁甜甜闡釋設想,創新的邏輯出發點從(cong) 健聽人變成了聽障人,也意味著沒有成熟的方案可以借鑒。“這是一次關(guan) 乎‘表達’的探險。”袁甜甜說。

  構建算法,給計算機編一套手語教材

  如果說“手語識別”和“語音識別”還有一些相似之處,那就是二者都必須依托於(yu) 豐(feng) 富的語料庫。如今,語音識別語料庫已十分成熟豐(feng) 富,“語音的語料在自然狀態下非常便於(yu) 獲取,但手語語料卻非常少。”袁甜甜說。

  “另外,語音是一種‘單信道’的形式,而手語是‘多信道’,計算機要識別的不隻有動作,還有表情和場景。”袁甜甜介紹,從(cong) 對數據采集的支撐程度看,我國目前手語語言學的體(ti) 係性並不強,“手語方言”比比皆是,這就給數據采集造成了極大困難。

  “要將設想變為(wei) 現實,就要先確立標準。”袁甜甜說,她和團隊成員確定了先易後難的思路,基於(yu) 國家通用手語的標準采集數據,“簡單來講,我們(men) 翻譯的是手語裏的‘普通話’。”

  王建源是聾人工學院網絡工程專(zhuan) 業(ye) 2018級學生,也是鯨言創益團隊的初創成員。他的工作是收集手語語料,這些語料便是視頻畫麵。“招募誌願者,請他們(men) 來錄視頻,反反複複地錄。”王建源“說”。

  王建源從(cong) 小在特殊學校求學,父母也都是聽障人士,他從(cong) 不避諱在健聽人麵前打出手語,因為(wei) 他覺得手語很美。“但是,手語的美是複雜的,這個(ge) 工程量太大了!”王建源笑著“說”。

  兩(liang) 年時間裏,王建源和團隊其他成員幾乎每天都準時出現在學院的實驗室,有時忙到很晚,幹脆席地而睡。如今,他們(men) 已經收集到30餘(yu) 萬(wan) 條語料,“經過測算對比,距離中國漢語水平考試的4級水平僅(jin) 差100多個(ge) 詞了。”王建源介紹。

  手語是一門視覺語言,有特定的語法、語序。手勢、表情、肢體(ti) 動作自由排列組合,表達的便是不同的意思。在袁甜甜的設想中,這套係統呈現的內(nei) 容,不應該是由漢語單詞羅列而成的句子,而是在輸入端和輸出端既要遵循手語語序、語境,也要符合漢語的表述邏輯。

  天津理工大學計算機學院研一學生孫悅把自己在團隊中的工作形容為(wei) “修橋”。“就拿‘陽光總在風雨後’這句話來說,手語的語序是‘風/雨/結束/陽光’,這顯然讓人看不懂。”孫悅說,她和夥(huo) 伴們(men) 逐漸構建起一套手語識別算法框架模型,“通俗來說,就是我們(men) 給計算機編了一套‘手語教材’。”有了這套“教材”,豐(feng) 富的語料庫就有了用武之地,相當於(yu) 找到了手語轉換為(wei) 漢語的規律,“橋”修通了,數據才能跑得順暢。如今,這個(ge) 模型已經基本能夠實現“複雜場景下的手語實時翻譯”。

  搭建橋梁,手語翻譯應用於(yu) 更多場景

  2019年,袁甜甜領銜的“複雜場景下中國手語實時翻譯係統”入選工信部新一代人工智能產(chan) 業(ye) 創新重點任務揭榜項目,並獲得國家資金支持,這也加快了整個(ge) 團隊前進的步伐。

  去年5月,他們(men) 把研究成果帶進了在天津舉(ju) 行的第五屆世界智能大會(hui) 的會(hui) 場,獲得點讚。“當時係統已經涵蓋教育、法律、餐飲、交通等應用場景,在光線充足的環境下,識別率可達95%。”袁甜甜說,如今,這套係統還在升級,“我們(men) 的目標是100萬(wan) 條語料,基本覆蓋社會(hui) 生活的常用場景。”

  最讓張益彬難忘的是,去年10月,他和團隊合力研發的項目《“鯨可語”——多模態連續手語自動標注識別係統》榮獲第七屆中國國際“互聯網+”大學生創新創業(ye) 大賽全國總決(jue) 賽金獎,而自動標注識別是手語翻譯的關(guan) 鍵一環。這也證明了“張益彬們(men) ”的努力得到了國內(nei) 科創界的高度關(guan) 注。

  聞訊而來的合作方越來越多,這讓團隊成員對於(yu) 係統未來的應用場景有了無盡暢想。不久前,天津市急救中心也找到他們(men) ,希望引入這套係統。“經常碰到急救對象是聽障人士,生命垂危之際,打字交流效率太低了,往往隻能用手語表達。”袁甜甜說。

  今年之內(nei) ,這套係統將應用於(yu) 天津理工大學的辦公樓。到時,樓內(nei) 大廳將出現一個(ge) 交互機器人和一塊交互大屏,所有聽障人士都可以被“聽見”。

  《 人民日報 》( 2022年07月08日 第 11 版)

(責編: 李文治)

版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。