Pika放大招：今天起，視頻和音效可以“一鍋出”了！

就在剛剛，Pika發布了一項新功能：

很抱歉我們之前一直處于靜音狀态。

今天起，大家可以給視頻無縫生成音效了——Sound Effects！

生成的方式有兩種：

要麽給一句 Prompt，描述你想要的聲音；

要麽直接讓 Pika 根據視頻内容自動生成。

并且 Pika 非常自信地說到：" 如果你覺得音效聽起來很棒，那是因爲它确實如此 "。

話不多說，我們直接來聽一下。

車鳴聲、廣播聲、鷹叫聲、刀劍聲、歡呼聲……可謂是聲聲不息，并且從效果上來看，也是高度與視頻畫面匹配。

不僅是發布的宣傳片，Pika 官網現在也放出了多個 demo。

例如無需任何 prompt，AI 隻是看了眼烤培根的視頻，便可以配出毫無違和感的音效：

再如給一句 prompt：

Super saturated color, fireworks over a field at sunset.

超飽和色彩，日落時田野上的煙火。

Pika 便可以在生成視頻的同時配上聲音，從效果中不難看出，煙花綻放的瞬間，聲音卡點也是相當的精準：

大周末的發布這樣一個新功能，網友們在高呼 Pika" 夠卷、夠 Awesome"的同時，也有人認爲：

它正在爲多模态 AI 創作收集所有的 " 無限寶石 "。

那麽 Pika 的 Sound Effects 具體要如何操作，我們繼續往下看。

給視頻 "make some noise"

Pika 給視頻生成音效的操作也是極！其！簡！單！

例如隻需一句 prompt，視頻和音效就能" 一鍋出 "：

Mdieval trumpet player.

中世紀小号手。

相比于此前生成視頻的操作，現在隻需開啓下方 "Sound effects" 按鈕即可。

讓我們聽一下生成效果：

第二種操作方式，就是在生成了視頻過後，可以單獨給它配音。

例如在下面這個視頻，點擊下方的"Edit"，再選擇"Sound Effects"：

然後可以描述一下自己想要的聲音，例如：

Race car revving its engine.

賽車正在發動引擎。

然後短短幾秒後，Pika 就可以根據描述和視頻生成音效，而且還是6 種聲音可選的那種！

值得一提的是，Sound Effects 功能目前隻對超級合作者（Super Collaborator）和 Pro 用戶開放測試。

不過 Pika 也表示：" 我們很快就會向所有用戶推出該功能！"

然後現在已經有一批網友在開始測試這個 Beta 版本了，并且表示：

音效聽起來和視頻很相配，而且增加了很多氣氛。

再如 " 壁爐裏火焰的聲音 "，是這樣的：

這位網友還用了額外的工具，在 Pika 生成效果的基礎上，還讓視頻裏的人物開口說話：

想要嘗鮮 Pika 新功能的小夥伴，可以蹲一波 Sound Effects 的全面開放了。

什麽原理？

至于 Sound Effects 背後的原理，雖然 Pika 此次并沒有公開，但在此前 Sora 大火之後，語音初創公司ElevenLabs就出過類似的配音功能。

當時，英偉達高級科學家Jim Fan就對此做過較爲深入的分析。

他認爲，AI 學習準确的視頻到音頻映射還需要對潛在空間中的一些 " 隐式 " 物理進行建模。

他詳細說明了端到端 Transformer 在模拟聲波時需要解決的問題：

識别每個物體的類别、材料和空間位置。

識别物體間的高階互動：例如，是木棍、金屬或是鼓面？以什麽速度擊打？

識别環境：是餐廳、空間站、還是黃石公園？

從模型的内部記憶中檢索物體和環境的典型聲音模式。

使用 " 軟性 " 的、通過學習得到的物理規則來組合和調整聲音模式的參數，甚至即時創造全新的聲音。這有點像遊戲引擎中的 " 程序化音頻 "。

如果場景很複雜，模型需要根據物體的空間位置疊加多個聲音軌道。

所有這些都不是顯式的模塊，而是通過大量的（視頻，音頻）對的梯度下降學習來實現的，這些視頻和音頻對在大多數互聯網視頻中自然地時間對齊。注意力層将在它們的權重中實現這些算法，以滿足擴散目标。

除此之外，Jim Fan 當時表示英偉達的相關工作并沒有這樣高質量的 AI 音頻引擎，不過他推薦了一篇 MIT 五年前的論文The Sound of Pixels：

感興趣的小夥伴可以戳文末鏈接詳細了解一下。

One More Thing

在多模态這件事上，LeCun在最新訪談中的觀點也很火爆，他認爲：

語言（文本）是低寬帶的：小于 12 字節 / 秒。現代 LLM 通常使用 1x10^13 個雙字節标記（即 2x10^13 字節）進行訓練。一個人閱讀大約需要 100000 年（每天 12 小時）。

視覺的帶寬要高得多：約 20MB/s。兩條視神經中的每一條都有 100 萬根神經纖維，每根神經纖維每秒攜帶約 10 個字節。一個 4 歲的孩子在清醒狀态下大約是 16000 小時，換算成字節大約是 1x10^15。

視覺感知的數據帶寬大約是文本語言數據帶寬的 1600 萬倍。

一個 4 歲孩子看到的數據，是互聯網上公開的所有文本訓練的最大 LLM 數據的 50 倍。

因此，LeCun 總結到：

如果不讓機器從高帶寬的感官輸入（如視覺）中學習，我們絕對不可能達到人類水平的人工智能。

那麽，你贊成這種觀點嗎？

參考鏈接：

[ 1 ] https://twitter.com/pika_labs/status/1766554610188095642

[ 2 ] https://www.youtube.com/watch?v=WirmtLi47q4

[ 3 ] https://pika.art/home

[ 4 ] https://www.youtube.com/watch?v=5t1vTLU7s40

[ 5 ] https://twitter.com/DrJimFan/status/1759287778268025177

[ 6 ] http://sound-of-pixels.csail.mit.edu/