將電視機調(diào)成“靜音”模式后,你能“看懂”主持人說的話嗎?在這個情景之內(nèi),你或許感覺這是一個游戲,但“唇讀”已伴隨人工智能越來越精準(zhǔn)。

據(jù)BBC報道,谷歌最近與英國牛津大學(xué)合作開發(fā)了一套唇讀軟件,通過收看數(shù)千小時BBC的電視節(jié)目來開啟唇讀功能。令人震驚的是,該軟件不僅掌握了唇語,還比唇讀專家做得好。
此前,英國皇家檢察院雇傭“讀唇女王”杰西卡·里斯為英國唯一的官方唇讀證人,根據(jù)英國警方用監(jiān)控攝像機偷拍下來的嫌犯錄像,用唇讀翻譯出錄像帶中嫌犯的對話,提供至關(guān)緊要的證據(jù)。她熟練高超的唇讀技術(shù),讓人很難發(fā)現(xiàn)她是一名耳聾者。

值得一提的是,谷歌的人工智能唇讀軟件,學(xué)習(xí)了BBC一系列的電視節(jié)目,所有視頻資料加起來約有 11.8 萬句話,經(jīng)過了約5000小時的訓(xùn)練,便迅速掌握了唇讀技能。研究人員用人工智能軟件對電視節(jié)目嘉賓進(jìn)行唇語解讀,準(zhǔn)確率為46.8%,而專業(yè)的唇語專家在接受同樣的測試時,準(zhǔn)確率僅為12.4%。
無獨有偶,牛津大學(xué)的另一獨立小組也于不久前開發(fā)了一款類似的人工智能唇讀軟件,在測試中達(dá)到了93.4%的準(zhǔn)確率,而人類的準(zhǔn)確率僅為52.3%。但該測試所用的材料均為志愿者事先錄制好的固定句子,沒有任何復(fù)雜的事件背景可言。以測試視頻當(dāng)中的單詞為例,這款類似的人工智能唇讀的軟件中有51個特殊詞匯,而此次谷歌選取的BBC節(jié)目數(shù)據(jù)庫卻包含了驚人的17500個特殊詞匯。在沒有任何背景介紹的情況下直接對BBC節(jié)目的嘉賓進(jìn)行唇語解讀,如果完全采用人工,工作量之大無法想象,因此對于人工智能而言是一個巨大的挑戰(zhàn)。
為了避免視頻流與音頻流不同步的障礙,團隊采取了讓計算機先學(xué)會完全同步的音視頻流,掌握發(fā)音與唇形間的關(guān)聯(lián),進(jìn)而自行推斷音視頻流中哪些畫面是不同步的,再進(jìn)行自動修正。
來自牛津大學(xué)里普耐特研究團隊的阿薩埃爾對此技術(shù)的評價是:“我們相信人工智能唇讀技術(shù)是一種非常實用的輔助性技術(shù),比如更智能的助聽器。此外,人工智能技術(shù)還可應(yīng)用于外交、破案等領(lǐng)域,甚至可能在普及之后改變?nèi)藗兊纳睢?/div>
人工智能業(yè)內(nèi)專家稱:“這絕對是建構(gòu)全自動唇讀系統(tǒng)的第一步!現(xiàn)有的各類龐大數(shù)據(jù)庫完全可以支持深度學(xué)習(xí)技術(shù)的發(fā)展。”
更多>相關(guān)資訊
0 條相關(guān)評論