作者:蔔淑情
編輯:硬 AI
AI 的造假能力強到什麽程度?
近日,美國前總統特朗普及奧巴馬、俄羅斯總統普京及前總統葉利欽、特斯拉首席執行官馬斯克以及 C 羅的 AI 合成視頻在 X(前身爲 Twitter)和 Reddit 等社交平台上被觀看了數千次。
在馬斯克的視頻中," 他 " 用法語接受了媒體采訪,闡述他對于 AI 威脅的看法。
不僅音色、語氣以假亂真,就連對口型也幾乎毫無破綻。
這就是最近爆火的 " 深度造假 "(Deepfake)技術,不僅可以克隆聲音,精通幾乎所有語言,而且還可以匹配口型。
專門從事 " 深度造假 " 的 DeepMedia 創始人 Rijul Gupta 表示:
我們基本上已經達到了這樣的程度:任何人都可以克隆任何人的聲音,并通過 5 秒的音頻素材,使其以幾乎任何語言說話。
目前,市面上已經出現幾款通過 " 深度造假 " 技術進行視頻語音翻譯和口型同步的應用程序。
LipDub:風投心頭好
LipDub 是一款視頻語音翻譯 + 口型同步的移動 APP,用戶能在幾分鍾内 " 用外語交流 ",早些時候在 App Store 上線。
LipDub 的核心技術是 AI,它能夠準确識别視頻中的語音,使用 GPT-4 将其翻譯成其他語言,并使用 " zero-shot model ( 零樣本模型 ) " 算法,将翻譯後的語音與視頻人物的口型進行匹配。
使用過程簡單粗暴:上傳一段視頻、選擇目标語言、獲得帶有新語音和口型同步的翻譯視頻。整個過程僅需要幾分鍾的時間。
LipDub 目前支持 28 種語言,包括韓語、西班牙語、捷克語、泰米爾語和烏克蘭語。
LipDub 由初創公司 Captions 出品。該公司成立于 2021 年,由 Snap 前設計工程主管 Gaurav Misra 和 Dwight Churchill 聯合創立,目标是生成式 AI 翻譯工具市場。
Captions 早期獲得了紅杉資本、Andreessen Horowitz 等知名風投的投資,并得到了 Instagram 聯合創始人 Kevin Systrom 和 Mike Krieger 以及 Facebook 前産品設計副總裁 Julie Zhuo 的支持。
截至目前,Captions 擁有 10 萬日活用戶,Misra 預計 LipDub 也能吸引同樣多的用戶。
據悉,LipDub 下一階段的目标是更流暢的翻譯和逼真自然的口型同步。
Misra 說:
下一步是讓視頻看起來更加自然——真正做出一段視頻,你根本感覺不到裏面有配音或處理,非常自然和易懂。
這種技術過去我們隻在《星際迷航》這類作品裏看到,對吧?簡直是硬核科幻啊。
這樣的前景使 Captions 在今年 6 月份獲得了 2500 萬美元的 B 輪融資,由矽谷傳奇投資公司凱鵬華盈 ( Kleiner Perkins ) 領投。
值得注意的是,LipDub 所代表的視頻 AI 翻譯技術,也引發了業界對 " 深度造假 " 的擔憂,存在被濫用于虛假新聞及其他不正當用途的風險。
當前,LipDub 作爲視頻 AI 翻譯的頭部玩家,處于快速叠代階段,其核心技術還有很大改進空間。同類競品也在蜂擁而至,競争激烈。
HeyGen:緻力于消除語言障礙
HeyGen,AI 口型同步和短視頻内容翻譯領域的另一個大玩家,該公司在 9 月 7 日推出視頻翻譯功能後在 X 上迅速走紅,目前擁有數百萬用戶。
有用戶曾使用 HeyGen 制作了馬斯克、梅西和紮克伯格用多種外語講話的片段。
HeyGen 聯合創始人兼首席執行官 Joshua Xu 表示,其目标是 " 消除語言障礙 "。
我們設想未來用不同語言制作視頻内容和傳播信息将變得像打字一樣簡單。
HeyGen 看中了全球視頻翻譯的巨大市場。Xu 曾在 X 上發表一個 AI 生成視頻中說 :
想想看,消除語言障礙使内容對全球用戶可用,而不僅僅 10% 的英語使用者。
他還表示,像 Coursera、Khan Academy 和 MasterClass 等教育平台可以通過 " 多語言化 " 來擴大其影響力。
HeyGen 目前支持 10 種輸入語言和 8 種輸出語言,包括英語、西班牙語、中文、意大利語、印地語和日語等。
HeyGen 前身是一個名叫 Movio 的 AI 視頻翻譯平台。該平台基于内容生成引擎 Surreal Engine,于 2022 年 7 月推出,僅 7 個月内就獲得了 100 萬美元的年經常性收入。
Xu 與前字節跳動和美國社交媒體音樂公司 Smule 工程師 Wayne Liang 于 2020 年創立了 Surreal。
Surreal 專注制作逼真的 " 深度造假 " 視頻,主要面向電商廣告客戶。Surreal 在深圳啓動運營 4 個月後,便完成了 100 萬美元天使融資。
去年 4 月,Xu 将 Movio 更名爲 HeyGen。自 2020 年以來,HeyGen 和 Surreal 已從紅杉資本、IDG 資本、真格基金和百度風投獲得至少 900 萬美元的資金。
時至今日,Surreal 在中國仍然活躍,但 HeyGen 主要在美國洛杉矶運營。
Verbalate:支持 30 分鍾視頻處理
視線轉向澳洲,還有一個不可忽視的 AI 視頻翻譯平台—— Verbalate。
它和 LipDub 和 HeyGen 一樣,将用戶的視頻配音成目标語言,不同之處在于,Verbalate 可處理長達 30 分鍾的視頻。
Verbalate 創始人 Grant Davies,成立該平台最初的想法是出于疫情期間澳大利亞封鎖期間的無聊。
2022 年,Davies 在騎車時聽 Joe Rogan 的播客,知道 YouTuber 用戶 MrBeast 使用配音演員翻譯視頻。當時 Davies 正在研究 AI,覺得可以用 AI 做自動翻譯。
據悉,Verbalate 的基礎訂閱月費爲 9 美元,可以制作一個 10 分鍾視頻,相比之下,競争對手 HeyGen 的月費爲 29 美元,可制作多個 5 分鍾視頻。
LipDub AI:瞄準影視配音
有些平台則瞄準了于更大的市場和更長的視頻運行時間。
加拿大公司 MARZ 的 LipDub AI 平台(不要與 Captions 的 LipDub 混淆)面向電影電視行業,提供高質量的配音翻譯視頻。
目前 LipDub AI 處理一分鍾包含多個鏡頭的視頻片段所需的運行時間不到 20 分鍾。
該公司目前依賴訓練素材(例如視頻片段)來制作這些配音,但它預計将在一年内加快這一過程,僅依靠音頻和原始片段制作配音。
LipDub AI 平台的視頻處理速度正在提升,預計可以僅依靠音頻就生成配音視頻。
與其他口型配音平台不同,LipDub AI 沒有采用外部大型語言模型,而是使用自己的生成模型,該模型通過錄音進行訓練。
MARZ 市場總監 Tim Reyes 認爲,口型匹配技術将幫助制片人擴大電影或電視節目的影響力,同時又不會危及演員的工作保障。
Reyes 表示: LipDub AI 實際上爲新市場開辟了一大堆機會,這不像其他一些人工智能技術,他們破壞了電影業目前的工作流程。