" 默片 " 還需要繼續進化。
簡單文字提示,即可爲這些 " 默片 " 增添聲音效果。
當你被 OpenAI Sora 生成的這些視頻震撼時,有沒有潛意識裏總覺得還缺點啥?
這些視頻和電影誕生時的默片 " 短視頻 " 是不是差不多?這是 1895 年路易斯 · 盧米埃爾導演的《火車進站》,固定機位,一鏡到底拍攝火車開進站台的場景。
電影《工廠大門》的效果是這樣的:
不過,即使是默片也并非一點聲音也沒有。放映時,影院裏會有樂團(大到一個樂團、小到一位鋼琴師)根據劇情演奏音樂,用音樂渲染情緒,推動情節發展。現在,AI 語音克隆初創公司 ElevenLabs 也率先爲一堆 Sora 創建的視頻添加了背景聲音,相當逼真。
ElevenLabs 發布的 AI Sound Effects 的預告片,選擇當下大熱的 Sora 視頻體現新模型的能力。
在這個長達 1 分鍾的視頻中,所有聲音——從城市喧鬧背景下繁忙街道上的腳步聲、海浪聲、火車運行時有節奏的咔哒聲、新年熱鬧的人群、未來機器人的機械聲到好萊塢風格的宣傳短片人聲,等等——都由文本到音頻提示生成。
" 我們使用‘海浪撞擊’、‘金屬铿锵聲’、‘鳥鳴聲’和‘賽車引擎’等文本提示來生成音頻,并将其疊加到我們最喜歡的一些 OpenAI Sora 視頻上。" 該公司在一篇博文中寫道。
ElevenLabs 表示,他們正在開發一個新産品,可以根據用戶給出的場景描述生成聲音,爲原本無聲的視頻片段添加聲效。這次給 Sora 生成的内容添加效果,算是一次牛刀初試。預告片出來後,有不少贊歎的聲音。
linkedin 用戶的支持聲
linkedin 用戶的支持聲
x 平台用戶的支持聲
也不乏批評的聲音,認爲這些 AI 合成的聲音沒有 " 愛 " 和 " 細節 "......
以 Sora、Runway、Pika 等工具爲代表,完全由 AI 生成的内容正在興起,效果逼真,但缺乏背景音頻,這就是 ElevenLabs 新模型的用武之地,它允許用戶通過描述他們想要的内容來爲其内容制作聲音效果。
ElevenLabs 表示,尚未準備好發布其文本到音效模型,但上線後它将能夠幫助内容創作者創建全方位的聲音,包括腳步聲、波浪聲和氛圍聲等。
市場上已經有一些文本到音效模型,不過通常圍繞音樂 AI 模型構建,包括 myEdit、AudioGen 和 StabilityAI 的 Stable Audio 等。除了 AI 生成的内容,ElevenLabs 新模型産生的聲音甚至可以應用于任何其他需要背景音效的視頻。比如 Instagram 視頻、商業或視頻遊戲預告片等。最終效果如何,還有待檢驗。
雖然聲效都是文本提示生成,但要生成正确的模拟效果并不容易。系統要同時針對文本和視頻像素進行學習。" 學習精确的視頻 - 音頻映射,還需要在潛在空間中建模一些‘隐含的’物理現象。" 英偉達 AI 科學家 Jim Fan 也關注到了 ElevenLabs 的新産品。
他同時指出,一個端到端的 Transformer 要正确模拟聲效,要搞清楚很多事情。比如确定每個物體的類别、材料和空間位置、擊中的是木制、還是金屬表面?速度如何?處在什麽樣的空間環境?等等。" 目前,我們還沒有這麽高質量的 AI 音頻引擎。" 他寫道。
ElevenLabs 成立于 2022 年,由前谷歌機器學習工程師 Piotr Dabkowski 和前 Palantir 部署策略師 Mati Staniszewski 共同創立。此後,公司推出了由 AI 驅動的文本轉語音軟件和自動翻譯的 AI 配音工具,可将視頻中的演講翻譯成 20 多種語言,依舊 " 保持原來的語氣和風格 "。今年年初,這家公司憑借最近 8000 萬美元的 B 輪融資跻身 AI 獨角獸行列。
新模型可能會給 ElevenLabs 帶來先發優勢,但值得注意的是,活躍在 AI 語音領域的其他幾家公司也有潛力涉足這一領域。其中包括 MURF.AI、Play.ht 和 WellSaid Labs 等知名廠商。接下來,應該會湧現一批能夠分析視頻内容并正确自動添加聲音效果的工具。
生成式 AI 的夢想之一是能夠通過單一提示創建完整、全面的内容。随着文本轉音效、AI 視頻和合成語音等技術的進步,我們正在逐漸靠近這個夢想。
想體驗 ElevenLabs 最新的 AI Sound Effects ? 不妨先注冊等待吧,這裏有傳送門:
https://form.typeform.com/to/gg0xzZW4