人工智能聲呐眼鏡可識別唇語
人工智能聲呐眼鏡可識別唇語
準確率約為(wei) 百分之九十五
【總編輯圈點】
科技日報北京4月9日電 (記者張佳欣)美國康奈爾大學研究人員開發了一款聲呐眼鏡,它通過聲學感應和人工智能跟蹤嘴唇和嘴巴的動作,可連續識別多達31條無聲的命令,該係統可為(wei) 那些暫時不方便說話或無法發聲的人提供幫助。相關(guan) 論文將在本月於(yu) 德國漢堡舉(ju) 行的計算機協會(hui) 計算係統人為(wei) 因素會(hui) 議上發表。
這款眼鏡是一種名為(wei) EchoSpeech的無聲語音識別接口。該眼鏡配備了一對麥克風和比鉛筆橡皮擦還小的揚聲器,成為(wei) 一個(ge) 可穿戴的人工智能驅動的聲呐係統,在麵部發送和接收聲波,並感知嘴巴的運動。然後,深度學習(xi) 算法實時分析這些回聲輪廓,準確率約為(wei) 95%。這款低功耗、可穿戴的眼鏡隻需要幾分鍾的用戶訓練數據,即可識別命令並可在智能手機上運行。
EchoSpeech可用於(yu) 在說話不方便或不合適的地方通過智能手機與(yu) 他人交流,比如在嘈雜的餐廳或安靜的圖書(shu) 館裏。無聲語音界麵還可與(yu) 觸筆配對,並與(yu) CAD等設計軟件一起使用,幾乎不需要鍵盤和鼠標。
研究人員表示,他們(men) 正在將聲呐技術“搬”到人體(ti) 上。它體(ti) 積小、功耗低、對隱私敏感,這些都是在現實世界中部署新的可穿戴技術的重要功能。無聲語音識別中的大多數技術都局限於(yu) 一組選定的預定命令,需要用戶麵部或佩戴攝像頭,這既不實用也不可行。可穿戴式攝像頭也存在重大的隱私問題,對用戶和與(yu) 之互動的人來說都是如此。而像EchoSpeech這樣的聲學傳(chuan) 感技術消除了對可穿戴式攝像機的需求。
此外,由於(yu) 音頻數據比圖像或視頻數據小得多,因此EchoSpeech隻需更小的帶寬,通過藍牙實時傳(chuan) 輸到智能手機上,且數據在本地,不在雲(yun) 端,確保了敏感隱私信息安全。
今年以來,人工智能再次引發極大關(guan) 注。幾年前,專(zhuan) 家們(men) 還在探討如何讓人工智能更加準確地理解人的意圖,並與(yu) 人進行多輪對話。曾經,讓人工智能讀懂唇語,還隻是科幻電影中的橋段。如今,這些都在快速變為(wei) 現實。麵對人工智能帶來的超乎預期的變化,不能停留在“看熱鬧”階段,人們(men) 需要真正去思考,如何更好地主宰人工智能,利用它為(wei) 人類造福,並盡量規避它可能帶來的麻煩。
版權聲明:凡注明“來源:新利平台”或“新利平台文”的所有作品,版權歸高原(北京)文化傳(chuan) 播有限公司。任何媒體(ti) 轉載、摘編、引用,須注明來源新利平台和署著作者名,否則將追究相關(guan) 法律責任。