新利平台 > 即時新聞 > 國內

無聲勝有聲 清華團隊推出新穎唇語解讀係統

發布時間:2022-04-06 13:42:00來源: 科技日報

  人說話時嘴唇動作跟語音同步,可以通過識別唇動信息進行語言信息交流。唇語對講話者友好,但是對解讀唇語的聽眾(zhong) 來說卻並不輕鬆,唇語解讀一直以來是個(ge) 難題,掌握唇語解讀技能的成本較高。

  據了解,為(wei) 降低唇語解讀難度,現有技術手段常采用磁場、視覺圖像、超聲波等方法。以最流行的非接觸式視覺圖像方法為(wei) 例,其唇語識別準確率較高,但依然容易受到麵部角度、光強、頭動和遮擋等因素幹擾。特別是在此次新冠病毒流行期間,佩戴的口罩給基於(yu) 視覺的唇動解讀帶來全新挑戰。因此,通過直接捕捉麵部肌肉細微動作解讀唇語技術具有重要的科學研究價(jia) 值與(yu) 廣闊的應用前景。

  如果在不久的將來,嘴唇掀動——“開門”,也許電子門禁能秒懂,馬上識別身份並解鎖;與(yu) 汽車對話——“左拐”,或許可控製車的方向逐漸向目標移動;對於(yu) 聲帶、喉舌損傷(shang) 的失聲人群,唇語可能將是一種不占用雙手的、日常無障礙交流的有效方式……

  這些想法,在近日清華大學機械工程係智能與(yu) 生物機械團隊推出一種新穎的唇語解讀係統之後,將很有可能夢想成真。相關(guan) 研究成果發表在最新的《自然·通訊》期刊上。

  據了解,這項技術的主要試驗和測試工作由清華機械工程係智能與(yu) 生物機械實驗室完成,中科院納米能源與(yu) 係統研究所的王中林院士對整個(ge) 科研工作過程進行建議和指導。

  那麽(me) ,究竟這項唇語解讀係統的新穎之處何在?“這個(ge) 基於(yu) 深度學習(xi) 輔助自供電柔性傳(chuan) 感器的唇語解讀技術,目標是解決(jue) 聲帶、喉舌損傷(shang) 失聲人群的日常無障礙交流問題,其不占用雙手,不受麵部角度、光強、遮擋和頭動等外部因素的幹擾,新穎之處在於(yu) 開發自供電的柔性傳(chuan) 感器(靈敏度0.61183 V/kPa)采集肌肉的微小動作信號,並采用基於(yu) 原型學習(xi) 的深度學習(xi) 模型,使用較少的數據訓練,測試準確率可達94.5%,實現即時捕捉失聲人群的唇動並轉譯成語音,可用於(yu) 失聲人群的日常無障礙語音交流。”3月29日,該論文第一作者、清華大學機械工程係智能與(yu) 生物機械團隊助理研究員路益嘉在接受科技日報記者采訪時表示。

  這個(ge) 唇語解讀係統是否會(hui) 運用大數據、人工智能等技術,突破的技術瓶頸是什麽(me) ?路益嘉答道,“實現對唇動信號的識別需要用到人工智能技術和機器學習(xi) 算法。在實際測試中發現,由於(yu) 不同人的麵部骨骼肌肉、肌肉運動形式、肌肉動作先後順序和習(xi) 慣語速等存在不同,即使是同一個(ge) 詞和同一句話,采集到的信號也有區別,為(wei) 了得到通用的可以接受的測試準確率,需要采集海量的數據進行模型訓練。然而,這樣的成本偏高。”

  據介紹,研究人員沒有采用訓練通用模型的技術路線,而是采用訓練個(ge) 性化的小樣本量數據模型的方法,即對每個(ge) 人的每個(ge) 詞(或每句話)分別采集小樣本量(相對海量數據而言)的數據進行模型訓練,考慮到每人說話的唇動都具有獨特的習(xi) 慣特征,這樣訓練出的模型缺少通用性但更有針對性,而不考慮通用性的要求降低模型對訓練數據量的需求,小樣本量也能得到可接受的測試準確率。研究人員使用基於(yu) 原型學習(xi) 的空洞循環神經網絡,來減少模型對訓練樣本量的需求。例如,在測試中對20個(ge) 常用水果名稱的唇動信號進行分類訓練,每個(ge) 水果名稱的唇動信號選取100個(ge) 樣本,測試準確率達94.5%。

  這項研究將在哪些領域應用,發揮作用?“該研究通過自供電傳(chuan) 感器采集唇動微動信號,並使用深度學習(xi) 模型將信號識別為(wei) 有含義(yi) 的語音信號或文字信號,比較適合服務失聲人群,在日常生活交流中可恢複失聲人群的基本語音交流能力,並保留失聲前的說話習(xi) 慣。”路益嘉表示。

  此外,其還可應用於(yu) 個(ge) 人身份識別。研究人員製作出一個(ge) 唇動指令開門的應用演示。由於(yu) 該方法融合特定密碼口令的靜態特征和個(ge) 人特殊的唇部動態特征,可以實現雙重特征驗證,特別是戴口罩不發聲說密碼的方式可進一步提升係統安全性,適用於(yu) 安全驗證要求較高的場合。

  該研究成果還可用於(yu) 人機交互的研究。研究人員製作出一個(ge) 唇動信號控製模型車運動方向的應用演示,通過檢測唇動發出的方向指令,機器模型車可改變行進方向。這為(wei) 現有人機交互方案提供了新的可能性。

  本報記者 華 淩

(責編: 陳濛濛)

版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。