“動動嘴皮子”AI就能知道你在說啥，當心隱私泄露！_時政

“動動嘴皮子”AI就能知道你在說啥，當心隱私泄露！

發布時間：2023-03-01 09:58:00來源：科技日報

　　可以想見，由於(yu) 公益、公共安全、國家安全等領域巨大的潛在需求的牽引，以及AI技術飛速發展的強力推動作用，在不久的將來，AI讀唇語有望實現快速推廣與(yu) 深度普及，產(chan) 業(ye) 前景十分可期。

　　——閆懷誌北京理工大學計算機學院副教授、網絡與(yu) 安全研究所所長

　　雖然電視劇《狂飆》已經迎來了大結局，但熱度仍然沒有絲(si) 毫減弱，有的網友利用劇中人物創作娛樂(le) 視頻，也有的網友剪輯其中精彩片段。不過，還有一些“較真”的網友，發現《狂飆》中的一些人物對話，配音和嘴型對不上，於(yu) 是便想通過人工智能進行唇語識別，還原最初的劇本情節。

　　然而，AI讀唇語並非隻能被用於(yu) 破譯“隱藏劇情”。據統計，我國聽力殘障人口超過2054萬(wan) ，除了主要的手語交流外，讀唇語也是他們(men) 重要的溝通方式。但人工解讀唇語容易受到個(ge) 人經驗、視覺感受能力、語言理解能力等因素影響，在正確率方麵差強人意，於(yu) 是人們(men) 開始嚐試利用AI技術來解讀唇語。

　　比唇語專(zhuan) 家更懂唇語

　　“所謂AI讀唇語，即人工智能唇語識別，其核心技術框架為(wei) 視覺識別和自然語言處理。”北京理工大學計算機學院副教授、網絡與(yu) 安全研究所所長閆懷誌介紹道，具體(ti) 而言，就是利用機器視覺技術，將人臉從(cong) 圖像中連續識別出來，並提取其中連續的口型變化特征，輸入至唇語識別模型，辨識出該人物口型對應的發音，進而輸出可能性最大的表達語句。

　　“視覺識別和自然語言處理分別有著龐大的技術體(ti) 係和不同的技術路線，但究其本質，都是通過大量的唇語數據來訓練AI模型，力求文本輸出的準確性。”閆懷誌補充道。

　　近幾年，不斷有AI巨頭開始在唇語識別賽道上作出嚐試。穀歌旗下Deep Mind公司就與(yu) 英國牛津大學合作，研發出了一款AI讀唇語軟件，通過讓AI讀唇語軟件“收看”數千小時的電視節目來訓練其唇語識別能力。有意思的是，在隨機抽取200個(ge) 視頻片段的讀唇語測試中，AI讀唇語軟件的準確率達到了46.8%，而經過專(zhuan) 業(ye) 訓練的人類讀唇語專(zhuan) 家，準確率僅(jin) 為(wei) 12.4%。

　　為(wei) 何AI讀唇語能夠悄然興(xing) 起？閆懷誌給出了自己的分析：一是強烈的需求牽引，二是巨大的技術推動。從(cong) 需求牽引來說，唇語識別不僅(jin) 可為(wei) 部分殘障人士提供方便，更可以在公共安防等諸多領域發揮巨大作用；從(cong) 技術推動來說，由於(yu) AI算法、算力以及數據瓶頸被不斷突破，使得AI技術在唇語識別領域取得較大成功成為(wei) 現實。

　　眾(zhong) 多難題有待突破

　　不過，閆懷誌也表示，目前我國人工智能唇語識別技術尚處於(yu) 起步階段，若想利用人工智能準確地識別唇語，還有很長的路要走。

　　從(cong) 語言本身來看，人類語言具有較高的複雜性，在人類話語所涉及的所有音標中，僅(jin) 有30%左右是直接由人類嘴唇來控製的，70%是難以通過肉眼，甚至是機器視覺區分的齒音、舌音以及喉音。而且，不同人說話的語氣、方言、連詞、口音，乃至胡須遮蓋等因素，都會(hui) 導致嘴型的細微變化，而恰恰是這種細微變化，會(hui) 嚴(yan) 重影響人工智能對於(yu) 唇語的識別和判斷。

　　從(cong) 技術層麵來看，人工智能采集唇語的環境通常較為(wei) 複雜，若想精準識別難度很高。以目前的人工智能技術而言，對於(yu) 長句、複雜句式等的識別水平不盡如人意，更不用說還存在著多場景識別、多人像唇語識別等問題。

　　閆懷誌表示，隻有解決(jue) 了上述問題，AI讀唇語才能得到突破性提升，邁向成熟發展階段。

　　人類不同語種之間千差萬(wan) 別，AI能讀懂每個(ge) 語種的唇語嗎？

　　閆懷誌介紹，此前較為(wei) 成功的AI讀唇語係統大多僅(jin) 限於(yu) 英語模型，這是因為(wei) 多數AI模型都是基於(yu) 英語數據訓練而得。但是，從(cong) 技術框架上來說，不同語種的訓練模型是基本一致的，或者說可以依賴於(yu) 同一類技術手段來實現。

　　當然，為(wei) 了適應不同語種的唇語識別，也需要作一些適應性調整：一方麵要選擇對應語種的數據進行有針對性的訓練；另一方麵，還需要對AI模型進行調整，比如納入時間屏蔽、優(you) 化語言模型以及改進超參數等。

　　此外，同一語種也會(hui) 有不同口型，即便口型類似，也可能代表著完全不同的意思。因此，成熟的AI讀唇語係統需要大量的唇語特征樣本數據，並盡可能地覆蓋多種應用場景、多類型的說話人群，借此來提升訓練後的唇語識別模型的泛化能力，提高AI讀唇語對於(yu) 不同口型和不同表意語言的識別準確率。

　　亟須監管的技術雙刃劍

　　盡管存在種種難題，但仍有越來越多的AI企業(ye) 開始涉足並計劃深耕人工智能唇語識別賽道。目前來看，各大AI巨頭的選擇不盡相同，具體(ti) 可分為(wei) 唇語數據、唇語視頻識別、唇語理解等。

　　閆懷誌也表示，目前許多人工智能唇語識別技術領域已實現初步突破，全鏈條集成前景可期，產(chan) 業(ye) 集群正在逐步形成。

　　從(cong) 應用場景來看，AI讀唇語在社會(hui) 公益、公共安全等領域都已開始嶄露頭角。從(cong) 目前各大巨頭的布局以及相關(guan) 技術的發展趨勢來看，AI讀唇語預期可在身份識別、國家安全、智慧係統等方麵具有廣闊的應用前景。“可以想見，由於(yu) 公益、公共安全、國家安全等領域巨大的潛在需求的牽引，以及AI技術飛速發展的強力推動作用，在不久的將來，AI讀唇語有望實現快速推廣與(yu) 深度普及，產(chan) 業(ye) 前景十分可期。”閆懷誌說。

　　例如，在安防安監領域，很多安監場景噪音較大或僅(jin) 有視頻信號，無法準確捕捉聲音，人工智能唇語識別技術就能派上用場；在身份識別領域，可以利用AI讀唇語來實現口型支付密碼輸入，“動動嘴唇”就能實現身份識別和支付交易；在公共安全領域，利用AI讀唇語，可以在各類視頻中分析案件當事人的唇語信息，輔助案件偵(zhen) 查工作；在智慧係統領域，可利用AI讀唇語來實現“無聲勝有聲”——隻依靠口型來控製智能設備，比如智能家電等。

　　當然，技術應用是把雙刃劍。很多人擔心，AI讀唇語會(hui) 使人們(men) 對話中的隱私內(nei) 容遭到泄露，無論當事人是公開發言、竊竊私語或是自言自語。“張張嘴”就被別人竊取聊天內(nei) 容，仔細想來確實可怕。

　　閆懷誌表示，這種擔心並非杞人憂天。AI讀唇語導致的隱私泄露，一方麵可能是有人惡意進行唇語獲取識別，另一方麵也可能是正常使用的AI讀唇語係統，但其中的存儲(chu) 、使用等環節保護不當，導致相關(guan) 數據被竊取或濫用，進而對個(ge) 人權益造成損害。而且，由於(yu) 涉及到當事人的對話內(nei) 容，具有明顯的方向性，這種隱私泄露的危害性可能要比普通的個(ge) 人信息泄露更為(wei) 嚴(yan) 重。

　　因此，閆懷誌建議，應從(cong) 隱私安全保護的角度，在管理層麵加強相關(guan) 法律法規的製定，嚴(yan) 格規範和約束AI讀唇語的應用場景、範圍和目的，加大對技術惡意利用的監管和懲戒力度。此外，還要在技術層麵加強AI讀唇語係統的安全保護體(ti) 係建設，以技術手段提高係統的識別精準度，避免技術濫用，切實保障用戶對話的內(nei) 容安全。（記者翟冬冬）

（責編：李雨潼）

“動動嘴皮子”AI就能知道你在說啥，當心隱私泄露！

相關閱讀

專題推薦

微觀

賞閱

資料雲

即時新聞