小心悄悄話被 AI 聽見!(噓)
最近國外一款可以讀唇語的 AI 軟件火了!
具體效果如下:
紅毯上布萊克 · 萊弗利小聲說:" 好緊張 ",笑着說話時肉眼很難分辨唇語,但 AI 可以。
乍一看隻能看見一排白牙(bushi)的侃爺,唇語也能被輕松破解。
看完後網友們開始紛紛評論,大開腦洞:
求 " 聯名 " 型網友:快把它和 Siri 結合一下吧!這樣我就不用像小傻子一樣對着電腦大喊了!
測評型網友:我想用它試試 " 座機畫質 " 的視頻!
擔心安全型網友:我有點害怕,我想戴口罩了。(嗚嗚)
實測 Readtheirlips 效果如何
量子位整理了一些視頻,爲大家親測了一下Readtheirlips的使用效果。
先試了一下奧特曼在斯坦福的訪談視頻,把生成的文本和原始對話對照了一下,内容完美契合 ~
而面對小表情比較多的老馬,Readtheirlips 的發揮依舊穩定。
不過以上兩個視頻都是人物全程正臉對着鏡頭的。
換成了說話時愛比劃的小紮,Readtheirlips 直接顯示錯誤。(視頻中人物不是全程正臉)
而主角換成卡帕西之後,因爲他說話太快,生成的文本出現了識别錯誤的情況。(左側爲 Readtheirlips 生成,右側爲文字處理軟件生成)
最後,我們嘗試着上傳了一個 16 分鍾的視頻,Readtheirlips 直接顯示錯誤,無法識别内容。
總結一下:
Readtheirlips 識别視頻的時間在一分鍾左右 。
就像他們标明的那樣如果人物的正臉不能正對鏡頭,那麽模型就很難給出正确答案。
而面對語速過快的視頻内容,Readtheirlips 隻能識别出其中的一些内容。
對此,團隊成員回應道:
是的,我們還沒有研究到這裏,但是會很快解決這個問題!
而關于上傳視頻的時長限制,他們這麽說:
現在隻支持 3 分鍾以内的視頻,但是以後我們會一點一點往上提升的!
AI 如何 " 聽 " 悄悄話
看完親測視頻,咱們也來唠一下 Readtheirlips 的工作原理。
看看它是怎麽讀取人類唇語的:
首先,研究團隊用大量的标注數據(已知的嘴唇運動動作及其對應的文本内容)來對模型進行訓練。
在此基礎上,用戶要上傳一段視頻,這段視頻要包含說話者的面部特寫,尤其是嘴部動作。
然後模型會對視頻進行嘴部運動的分析:先是通過面部檢測識别嘴唇的位置,然後再提取嘴唇的幾何特征,(形狀、開合程度、運動軌迹等),最後分析嘴唇在說話過程中的動态變化。(速度、方向和形狀變化)
之後,模型會将提取的嘴唇特征與訓練數據中的特征進行匹配,來識别出視頻中人物所說的内容。
将識别出的單詞或短語組合成完整的句子,進行一下上下文理解,确保語法和語義的正确性。
最終将識别出的内容輸出爲文本形式。
開發團隊
Readtheirlips 的開發團隊Symphonic Labs是一家初創公司。
領英上顯示它今年4 月份才剛剛成立,截至目前,公司人數不到 10 人。
他們之前還研發過一款通過閱讀唇語即可完成實時文本轉錄的軟件Symphonic
兩款軟件的試玩鏈接都已附上,感興趣的朋友們可以去嘗試一下 ~
Readtheirlips 試玩鏈接:
https://www.readtheirlips.com/
Symphonic 試玩鏈接:
https://symphoniclabs.com/
參考鏈接:
https://x.com/crsamra/status/1833494380357013879
— 完 —
量子位年度 AI 主題策劃正在征集中!
歡迎投稿專題 一千零一個 AI 應用,365 行 AI 落地方案
或與我們分享你在尋找的 AI 産品,或發現的AI 新動向
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>