幾小時前，OpenAI 爆款工具 Sora 被取消了靜音模式

" 默片 " 還需要繼續進化。

簡單文字提示，即可爲這些 " 默片 " 增添聲音效果。

當你被 OpenAI Sora 生成的這些視頻震撼時，有沒有潛意識裏總覺得還缺點啥？

這些視頻和電影誕生時的默片 " 短視頻 " 是不是差不多？這是 1895 年路易斯 · 盧米埃爾導演的《火車進站》，固定機位，一鏡到底拍攝火車開進站台的場景。

電影《工廠大門》的效果是這樣的：

不過，即使是默片也并非一點聲音也沒有。放映時，影院裏會有樂團（大到一個樂團、小到一位鋼琴師）根據劇情演奏音樂，用音樂渲染情緒，推動情節發展。現在，AI 語音克隆初創公司 ElevenLabs 也率先爲一堆 Sora 創建的視頻添加了背景聲音，相當逼真。

ElevenLabs 發布的 AI Sound Effects 的預告片，選擇當下大熱的 Sora 視頻體現新模型的能力。

在這個長達 1 分鍾的視頻中，所有聲音——從城市喧鬧背景下繁忙街道上的腳步聲、海浪聲、火車運行時有節奏的咔哒聲、新年熱鬧的人群、未來機器人的機械聲到好萊塢風格的宣傳短片人聲，等等——都由文本到音頻提示生成。

" 我們使用‘海浪撞擊’、‘金屬铿锵聲’、‘鳥鳴聲’和‘賽車引擎’等文本提示來生成音頻，并将其疊加到我們最喜歡的一些 OpenAI Sora 視頻上。" 該公司在一篇博文中寫道。

ElevenLabs 表示，他們正在開發一個新産品，可以根據用戶給出的場景描述生成聲音，爲原本無聲的視頻片段添加聲效。這次給 Sora 生成的内容添加效果，算是一次牛刀初試。預告片出來後，有不少贊歎的聲音。

linkedin 用戶的支持聲

x 平台用戶的支持聲

也不乏批評的聲音，認爲這些 AI 合成的聲音沒有 " 愛 " 和 " 細節 "......

以 Sora、Runway、Pika 等工具爲代表，完全由 AI 生成的内容正在興起，效果逼真，但缺乏背景音頻，這就是 ElevenLabs 新模型的用武之地，它允許用戶通過描述他們想要的内容來爲其内容制作聲音效果。

ElevenLabs 表示，尚未準備好發布其文本到音效模型，但上線後它将能夠幫助内容創作者創建全方位的聲音，包括腳步聲、波浪聲和氛圍聲等。

市場上已經有一些文本到音效模型，不過通常圍繞音樂 AI 模型構建，包括 myEdit、AudioGen 和 StabilityAI 的 Stable Audio 等。除了 AI 生成的内容，ElevenLabs 新模型産生的聲音甚至可以應用于任何其他需要背景音效的視頻。比如 Instagram 視頻、商業或視頻遊戲預告片等。最終效果如何，還有待檢驗。

雖然聲效都是文本提示生成，但要生成正确的模拟效果并不容易。系統要同時針對文本和視頻像素進行學習。" 學習精确的視頻 - 音頻映射，還需要在潛在空間中建模一些‘隐含的’物理現象。" 英偉達 AI 科學家 Jim Fan 也關注到了 ElevenLabs 的新産品。

他同時指出，一個端到端的 Transformer 要正确模拟聲效，要搞清楚很多事情。比如确定每個物體的類别、材料和空間位置、擊中的是木制、還是金屬表面？速度如何？處在什麽樣的空間環境？等等。" 目前，我們還沒有這麽高質量的 AI 音頻引擎。" 他寫道。

ElevenLabs 成立于 2022 年，由前谷歌機器學習工程師 Piotr Dabkowski 和前 Palantir 部署策略師 Mati Staniszewski 共同創立。此後，公司推出了由 AI 驅動的文本轉語音軟件和自動翻譯的 AI 配音工具，可将視頻中的演講翻譯成 20 多種語言，依舊 " 保持原來的語氣和風格 "。今年年初，這家公司憑借最近 8000 萬美元的 B 輪融資跻身 AI 獨角獸行列。

新模型可能會給 ElevenLabs 帶來先發優勢，但值得注意的是，活躍在 AI 語音領域的其他幾家公司也有潛力涉足這一領域。其中包括 MURF.AI、Play.ht 和 WellSaid Labs 等知名廠商。接下來，應該會湧現一批能夠分析視頻内容并正确自動添加聲音效果的工具。

生成式 AI 的夢想之一是能夠通過單一提示創建完整、全面的内容。随着文本轉音效、AI 視頻和合成語音等技術的進步，我們正在逐漸靠近這個夢想。

想體驗 ElevenLabs 最新的 AI Sound Effects ? 不妨先注冊等待吧，這裏有傳送門：

https://form.typeform.com/to/gg0xzZW4