圖片來源 @視覺中國
文 | 适道
2024 年的開年震撼同樣來自 OpenAI。節後還沒開工,Altman 就帶着繼 ChatGPT 的第二個殺手級應用 Sora 大殺四方。适道看完那條長達 60s 的演示視頻後,腦中隻有一句話:大家誰都别想玩了。快速回歸理智,Sora 統治之下,是否還有其他機會?我們從 a16z 發布的展望—— "Why 2023 Was AI Video ’ s Breakout Year, and What to Expect in 2024" 入手,盤一盤這條賽道留給其他玩家哪些空間。
01 用好巨頭 " 殲滅戰 " 窗口期
OpenAI 推出 Sora 不讓人意外,讓人意外的是 Sora 之強大難以想象。
細數 2023 年 AI 視頻賽道,有兩條非常清晰的邏輯。
一是 AI 生成視頻發展之迅猛。2023 年初還出現公開的文生視頻模型。僅僅 12 個月後,就有 Runway、Pika、Genmo 和 Stable Video Diffusion 等數十種視頻生成産品投入使用。
a16z 認爲,如此巨大的進展說明我們正處于大規模變革的起步階段——這與圖像生成技術的發展存在相似之處。文本—視頻模型正在不斷演化進步,而圖像—視頻和視頻—視頻等分支也在蓬勃發展。
二是巨頭入場隻是時間問題。2024 年注定是多模态 AI 爆發之年。然而,細數 2023 年 21 個公開 AI 視頻模型,大多數來自初創公司。
表面上,Google、Meta 等科技巨頭如湖水般平靜,但水面之下暗流湧動。巨頭們沒有停止發表視頻生成的相關論文;同時,他們還在不聲明模型發布時間的前提下對外發布演示版本的視頻,比如 OpenAI 發布 Sora。
明明演示作品已經成熟,爲何巨頭們不着急發布呢?a16z 認爲,出于法律、安全以及版權等方面的考慮,巨頭很難将科研成果轉化成産品,因此需要推遲産品發布,這就讓新玩家獲得了先發優勢。
适道認爲,最關鍵因素是 " 網絡效應 " 并不重要——首發玩家不是赢家,技術領先才是赢家。有了能生成 60s 視頻的 Sora,你還會執着于生成 4s 視頻的 Pika 嗎?
但這不代表初創公司徹底沒戲。因爲在該規律下,巨頭們的動作不會太快,初創公司需要抓住 " 窗口期 ",盡量快速發布産品,圈一波新用戶,賺一波快錢,尤其是在國内市場。
補充前阿裏技術副總裁、目前正在從事 AI 架構創業的賈揚清的觀點:1. 對标 OpenAI 的公司有一波被其他大廠 fomo 收購的機會。2. 從算法小廠的角度,要不就算法上媲美 OpenAI,要不就垂直領域深耕應用,要不就選擇開源。(創業邦)
02 " 學霸 "Sora 強在哪裏?
目前,絕大部分 AI 視頻産品還未解決核心難題:可控性、時間連貫性、時長。
可控性:用文本 " 描述 " 控制畫面中人物的運動軌迹。
當然,一些公司可以爲用戶提供視頻生成前的可控性。例如,Runway 的 Motion Brush 讓用戶高亮圖像的特定區域,并決定它們的動作。
時間連貫性:人物、物體、背景在不同幀之間保持一緻,不發生扭曲。
時長:能夠制作超過幾秒的視頻?
視頻的時長和時間連貫性息息相關。許多産品都限制視頻時長,因爲在時長超過幾秒後就無法保證任何形式的一緻性。如果你看到一個較長的視頻,很可能是由很多簡短片段構成,而且往往需要輸入幾十甚至上百條指令。
而 Sora 的強大在于突破了以上難題。
1、時間連貫性——前景人來人往,但主體始終保持一緻
2、時長——輕輕松松生成 60s
3、可控性——畫家的手部動作非常逼真
不僅如此,Sora 還能更好地理解物理世界。養貓的人應該明白這個視頻的含金量,居然模拟出了貓咪 " 踩奶 "!
Sora 能夠實現如此突破,在于 OpenAI 走上了一條與衆不同的道路。
假設 Sora 是一個足不出戶的小朋友,他理解外部世界的方式是觀看五花八門的視頻和圖片。
但 Sora 小朋友隻能看懂簡單的信息,OpenAI 就爲其量身打造了一套啓蒙學習課程——通過 " 視頻壓縮網絡 " 技術,将所有 " 複雜 " 的視頻和圖片壓縮成一個更低維度的表示形式,轉換成 Sora 更容易理解的 " 兒童 " 格式。
舉個不那麽恰當的例子。" 視頻壓縮網絡 " 技術就是将一部成人能看懂的電影内核轉換爲一集 Sora 更容易理解的 " 小豬佩奇 "。
在理解 " 學習信息 " 階段,Sora 進一步将壓縮後的信息數據分解爲一塊塊 " 小拼圖 " —— " 時空補丁 "(Spacetime Patches)。
一方面,這些 " 小拼圖 " 是視覺内容的基本構建塊,無論原始視頻風格如何,Sora 都可以将它們處理成一緻的格式,就像每一張照片都能分解爲包含獨特景觀、顔色和紋理的 " 小拼圖 ";另一方面,因爲這些 " 拼圖 " 足夠小,且包含時空信息,Sora 能夠更細緻地處理視頻的每一個小片段,并考慮和預測時空變化。
在生成 " 學習成果 " 階段,Sora 要根據文本提示生成視頻内容。這個過程依賴于 Sora 的大腦——擴散變換器模型(Diffusion Transformer Model)。
通過預先訓練好的轉換器(Transformer),Sora 能夠識别每塊 " 小拼圖 " 的内容,并根據文本提示快速找到自己學習過的 " 小拼圖 ",把它們拼在一起,生成與文本匹配的視頻内容。
通過擴散模型(Diffusion Models),Sora 可以消除不必要的 " 噪音 ",将混亂的視頻信息變得逐步清晰。例如,塗鴉本上有很多無意義的線條,Sora 通過文本指令,将這些無意義的線條優化爲一幅帶有明确主題的圖畫。
而此前的 AI 視頻模型大多是通過循環網絡、生成對抗網絡、自回歸 Transformer 和擴散模型等技術對視頻數據建模。
結果就是 " 學霸 "Sora 明白了物理世界動态變化的原理,實現一通百通。而其他選手在學習每一道題解法後,隻會照葫蘆畫瓢,被 " 吊打 " 也是在情理之中。
03 未來 AI 視頻産品如何發展?
根據 a16z 的展望,AI 視頻産品還存在一些待解決空間。
首先,高質量訓練數據從何而來?
和其他内容模态相比,視頻模型的訓練難度更大,主要是沒有那麽多高質量、标簽化的訓練數據。語言模型通常在公共數據集(如 Common Crawl)上進行訓練,而圖像模型則在标簽化數據集(文本 - 圖像對)(如 LAION 和 ImageNet)上進行訓練。
視頻數據則較難獲得。雖然 YouTube 和 TikTok 等平台不乏可公開觀看的視頻,但這些視頻都沒有标簽,而且可能不夠多樣化(例如貓咪視頻和網紅道歉等内容在數據集中比例可能過高)。
基于此,a16z 認爲視頻數據的 " 聖杯 " 可能來自工作室或制作公司,它們擁有從多個角度拍攝的長視頻,并附有腳本和說明。不過,他們是否願意将這些數據授權用于訓練,目前還不得而知。
适道認爲,除了科技巨頭,長期來看,以國外 Netflix、Disney;國内 " 愛優騰 " 爲代表的行業大佬也不容忽視。這些公司積攢了數十億條會員評價,熟知觀衆的習慣和需求,擁有數據壁壘和應用場景。去年 1 月,Netflix 就發布了一支 AI 動畫短片《犬與少年(Dog and Boy)》。其中動畫場景的繪制工作由 AI 完成。對标到國内,AI 視頻賽道大概率依然是互聯網大廠的天下。
其次,用例如何在平台 / 模型間細分?
a16z 認爲,一種模型不能 " 勝任 " 所有用例。例如,Midjourney、Ideogram 和 DALL-E 都具有獨特的風格,擅長生成不同類型的圖像。預計視頻模型也會有類似的動态變化。圍繞這些模式開發的産品可能會在工作流程方面進一步分化,并服務于不同的終端市場。例如,動畫人物頭像(HeyGen)、視覺特效(Wonder Dynamics)和視頻到視頻( DomoAI)。
适道認爲,這些問題最終都會被 Sora 一舉解決。但對于國内玩家而言,或許也是一個 " 中間商賺差價 " 的機會。
第三,誰将支配工作流程?
目前大多數産品隻專注于一種類型的内容,且功能有限。我們經常可以看到這樣的視頻:先由 Midjourney 做圖,再放進 Pika 制作動畫,接着在 Topaz 上放大。然後,創作者将視頻導入 Capcut 或 Kapwing 等編輯平台,并添加配樂和畫外音(由 Suno 和 ElevenLabs 或其他産品生成)。
這個過程顯然不夠 " 智能 ",對于用戶而言,非常希望出現 " 一鍵生成 " 式平台。
據 a16z 展望,一些新興的生成産品将增加更多的工作流程功能,并擴展到其他類型的内容生成——可以通過訓練自己的模型、利用開源模型或與其他廠商合作來實現。
其一,視頻生成平台會開始添加一些功能。例如,Pika 允許用戶在其網站上對視頻進行放大處理。此外,目前 Sora 也可以創建完美循環視頻、動畫靜态圖像、向前或向後擴展視頻等等,具備了視頻編輯的能力。但編輯效果具體如何,我們還要等開放後的測試。
其二,AI 原生編輯平台已經出現,能夠讓用戶 " 插入 " 不同模型,并将這些内容拼湊在一起。
可以預見的是,未來大批内容制作者将同時采用 AI 和人工生成内容。因此,能夠 " 絲滑 " 編輯這兩類内容的産品将大受歡迎。這或許是玩家們的最新機會。