新智元報道
編輯:桃子
【新智元導讀】2023 年,也是 AI 視頻元年。過去一年究竟有哪些爆款應用誕生,未來視頻生成領域面臨的難題還有哪些?
過去一年,AI 視頻領域我們見證了,Gen-2、Pika 等爆款産品的誕生。
來自 a16z 的 Justine Moore,詳細盤點了人工智能視頻生成領域的現狀、不同模型比較,以及還未解決的技術挑戰。
接下來,一起看看這篇文章都講了什麽?
AI 視頻生成大爆發
2023 年是 AI 視頻取得突破的一年。不過,今年過去了一個月,暫未有公開的文本到視頻的模型。
短短 12 個月,數十種視頻生成産品受到了全球數以萬計的用戶的青睐。
不過,這些 AI 視頻生成工具仍相對有限,多數隻能生成 3-4 秒的視頻,同時質量往往參差不齊,角色一緻性等問題尚未解決。
也就是說,我們還遠不能制作出一個隻有文字提示,甚至多個提示的皮克斯級别的短片。
然而,我們在過去一年中在視頻生成方面取得的進步表明,世界正處于一場大規模變革的早期階段——與我們在圖像生成方面看到的情況類似。
我們看到,文本到視頻的模型在不斷改進,圖像到視頻,以及視頻到視頻等分支也在蓬勃發展。
爲了幫助了解這一創新的爆炸式增長,a16z 追蹤了到目前爲止最需要關注的公司,以及該領域仍然存在的潛在問題。
今天,你可以在哪裏生成 AI 視頻?
21 個視頻生成産品
今年到目前爲止,a16z 已經跟蹤了 21 種公開産品。
雖然你可能聽說過 Runway、Pika、Genmo 和 Stable Video Diffusion,但還有許多其他的東西需要探索。
這些産品大多來自初創公司,其中許多都是從 Discord bots,有以下幾個優勢:
- 不需要構建自己面向消費者的界面,隻需專注于模型質量
- 可以利用 Discord 每月 1.5 億活躍用戶的基礎進行分發
- 公共渠道爲新用戶提供了一種簡便的方式,讓他們獲得創作靈感(通過查看他人的創作)
然而,随着技術成熟,我們開始看到越來越多的 AI 視頻産品建立自己的網站,甚至是 App。
随着 Discord 提供了一個很好的平台,但在純生成之上添加的工作流而言,卻是有限的,并且團隊對消費者體驗的控制很少。
值得注意的是,還有很大一部分人不使用 Discord,因其覺得界面混亂讓人困惑。
研究和技術
谷歌、Meta 和其他公司在哪裏?
在公開的産品列表中,他們顯然沒有出現 -- 盡管你可能已經看到了他們發布的關于 Emu Video、VideoPoet 和 Lumiere 等模型的帖子。
到目前爲止,大型科技公司基本上都不選擇公開自家的 AI 視頻産品。
取而代之的是,他們發表了各種相關的視頻生成的論文,而沒有選擇視頻演示。
比如,谷歌文本生成視頻的模型 Lumiere
這些公司有着巨大的分銷優勢,其産品擁有數十億用戶。
那麽,他們爲什麽不放棄發布視頻模型,而在這一新興類别市場中奪取巨大份額。
最主要的原因還是,法律、安全和版權方面的擔憂,往往使這些大公司很難将研究轉化爲産品,并推遲推出。如此一來,讓新來者有機會獲得先發優勢。
AI 視頻的下一步是什麽?
如果你曾使用過這些産品,便知道在 AI 視頻進入主流産品之前,仍然有很大的改進空間。
有時會發現,AI 視頻工具可以将提示内容生成視頻的「神奇時刻」,但這種情況相對較少見。更常見的情況是,你需要點擊幾次重新生成,然後裁剪或編輯輸出,才能獲得專業級别的片段。
這一領域的大多數公司都專注于解決一些核心的問題:
- 控制性:你能否同時控制場景中發生的事情,(比如,提示「有人向前走」,動作是否如描述的那樣?)關于後一點,許多産品都增加了一些功能,允許你對鏡頭 zoom 或 pan,甚至添加特效。
- 「動作是否如描述的那樣」一直較難解決:這涉及到底層模型的質量問題(模型是否理解提示的含義并能按要求生成),盡管一些公司正在努力在生成前提供更多的用戶控制。
比如,Runway 的 motion brush 就是一個很好的例子,它允許用戶高粱圖像的特定區域并确定其運動方式。
時間一緻性:如何讓角色、對象和背景在幀之間保持一緻,而不會變形爲其他東西或扭曲?
在所有公開提供的模型中,這是一個非常常見的問題。
如果你今天看到一段時間連貫的視頻,時長超過幾秒,很可能是視頻到視頻,通過拍攝一段視頻,然後用 AnimateDiff prompt travel 之類的工具來改變風格。
- 長度——制作長時間的短片與時間連貫性高度相關。
許多公司會限制生成視頻的長度,因爲他們不能确保幾分鍾後依然視頻保持一緻性。
如果當你看到一個超長的 AI 視頻,要知道它們是由一堆短片段組成的。
尚未解決的問題
視頻的 ChatGPT 時刻什麽時候到來?
其實我們還有很長的路要走,需要回答以下幾個問題:
1 當前的擴散架構是否适用于視頻?
今天的視頻模型是基于擴散模型搭建的:它們基本原理是生成幀,并試圖在它們之間創建時間一緻的動畫(有多種策略可以做到這一點)。
他們對 3D 空間和對象應該如何交互沒有内在的理解,這解釋了 warping / morphing。
2 優質訓練數據從何而來?
與其他模态模型相比,訓練視頻模型更難,這主要是因爲視頻模型沒有那麽多高質量的訓練數據可供學習。語言模型通常在公共數據集(如 Common Crawl)上進行訓練,而圖像模型則在 LAION 和 ImageNet 等标記數據集(文本 - 圖像對)上進行訓練。
視頻數據更難獲得。雖然在 YouTube 和 TikTok 等平台上不乏公開可訪問的視頻,但這些視頻沒有标簽,也不夠多樣化。
3 這些用例将如何在平台 / 模型之間進行細分?
我們在幾乎每一種内容模态中看到的是,一種模型并不是對所有用例都「取勝」的。例如,MidTrik、Idegraph 和 Dall-E 都有不同的風格,并擅長生成不同類型的圖像。
如果你測試一下今天的文本到視頻和圖像到視頻模式,就會發現它們擅長不同的風格、運動類型和場景構成。
提示:Snow falling on a city street, photorealistic
Genmo
Runway
Stable Video Diffusion
Pika Labs
誰将主導視頻制作的工作流程?
而在許多産品之間,來回是沒有意義的。
除了純粹的視頻生成,制作好的剪輯或電影通常需要編輯,特别是在當前的範例中,許多創作者正在使用視頻模型來制作在另一個平台上創建的照片的動畫。
從 Midjourney 的圖像開始,在 Runway 或 Pika 上制作動畫,然後在 Topz 上進行升級的視頻并不少見。
然後,創作者将視頻帶到 CapCut 或 Kapwing 等編輯平台,并添加配樂和畫外音,通常是在 Suno 和 ElevenLabs 等其他産品上生成的。
參考資料:
https://a16z.com/why-2023-was-ai-videos-breakout-year-and-what-to-expect-in-2024/