作者 | 程茜 ZeR0
編輯 | 心緣
OpenAI 新爆款 Sora 的熱度持續發酵,在科技圈的刷屏陣仗都快趕上正月初五迎财神了。
智東西 2 月 17 日報道,這兩天,OpenAI 首款文生視頻大模型 Sora 以黑馬之姿占據 AI 領域話題中心,馬斯克、楊立昆、賈揚清、Jim Fan、謝賽甯、周鴻祎、李志飛等科技人物紛紛下場評論,一些視頻、影視、營銷從業者也關注起這個新工具,開始擔心自己的飯碗。(48 個文生視頻 + 技術報告,揭秘 OpenAI 最強視頻 GPT)
OpenAI CEO 薩姆 · 阿爾特曼在社交平台 X 上積極與網友互動,馬斯克感歎 " 人類願賭服輸 ",360 集團創始人、董事長兼 CEO 周鴻祎預言 "AGI 實現将從 10 年縮短到 1 年 "。身爲競争對手的 AI 文生視頻創企 Runway 聯合創始人兼 CEO Cristóbal Valenzuela 也被驚到發表感言。
技術大牛們則開動腦力,從有限資料中抽絲剝繭,推演 Sora 的技術配方。Meta 首席 AI 科學家楊立昆稱,紐約大學助理教授謝賽甯作爲一作的擴散 Transformer 論文是 Sora 的基礎。謝賽甯也積極發長文分析 Sora 基于 DiT 架構、可能用到谷歌 NaViT 技術,推算 Sora 參數量約 30 億。
一些 OpenAI 技術人員還在持續放出更多用 Sora 生成的視頻作品,比如海上自行車比賽、男人向巨型貓王鞠躬、鲨魚跳出海面吓到在海灘放松的人。
民間高手們同樣行動力驚人:有的将 OpenAI 展示的生成視頻示例的提示詞輸入到 Midjourney、Pika、RunwayML、Make-A-Video 等其他明星模型對比效果;有的把 Sora 和比它早幾個小時發布的谷歌最新力作 Gemini 1.5 Pro 玩起了聯動。
Sora 的爆火,再度坐實了阿爾特曼 " 營銷大師 " 的稱号。
一些網友懷疑阿爾特曼是專挑谷歌發 Gemini 1.5 的時間亮出 Sora,硬生生把手握 100 萬 tokens 技術突破的 Gemini 1.5 話題度殺到片甲不留,是一出用大型廣告秀吸引更多融資的高招。
而最新被曝出的消息,似乎印證了 OpenAI 對新融資的迫切。據外媒報道,随着新一筆要約收購交易完成,OpenAI 的估值或超過 800 億美元。
阿爾特曼宏大的 7 萬億美元芯片籌資計劃也亟待輸血,畢竟最近剛給他的小目标再加 1 萬億,并收獲了馬斯克的 "" 評論。
這樣看來,利好的還是 AI infra 和芯片企業。
一、大佬們怎麽看 Sora?
不管是震驚 Sora 的強大,還是吐槽其生成視頻的破綻,都能收獲極高的關注度。大佬們也分爲幾派,從不同角度對 Sora 進行點評。
1、吃瓜感慨派:時間不等人,甘拜 AI 下風
代表之一是馬斯克,在社交平台 X 上的各網友評論區活躍蹦跶,四處留下 " 人類願賭服輸(gg humans)"、" 人類借助 AI 之力将創造出卓越作品 " 等隻言片語。
AI 文生視頻創企 Runway 聯合創始人兼 CEO Cristóbal Valenzuela 感慨後浪拍前浪,以前需要花費一年的進展,變成了幾個月就能實現,又變成了幾天、幾小時。
出門問問創始人李志飛在朋友圈感歎:"LLM ChatGPT 是虛拟思維世界的模拟器,以 LLM 爲基礎的視頻生成模型 Sora 是物理世界的模拟器,物理和虛拟世界都被建模和模拟了,到底什麽是現實?"
2、展望預言派:OpenAI 還有武器,創企壓力倍增
周鴻祎發了一條長微博和一個視頻,預言 Sora" 可能給廣告業、電影預告片、短視頻行業帶來巨大的颠覆,但它不一定那麽快擊敗 TikTok,更可能成爲 TikTok 的創作工具 ",認爲 OpenAI" 手裏的武器并沒有全拿出來 "、" 中國跟美國的 AI 差距可能還在加大 ",AGI" 不是 10 年 20 年的問題,可能一兩年很快就可以實現 "。
美國舊金山早期投資人 Zak Kukoff 預測一個不到 5 人的團隊将在 5 年内用文生視頻模型和非工會的勞動力制作一部票房收入超過 5000 萬美元的電影。
GitHub Copilot 主創 Alex Graveley 則替生成式 AI 創企們捏了把汗:" 如果 OpenAI 打算繼續逐個行業的蠶食 AI 初創公司,他們應該盡快上市。構建一個隻有 500 人受益的新經濟是個糟糕的未來。"
前阿裏副總裁、正在 AI infra 賽道創業的賈揚清,評價簡單粗暴:" 真的非常牛。" 他認爲 " 對标 OpenAI 的公司有一波被其他大廠 fomo(害怕錯過)收購的機會 "," 開源還需要一段時間才能 catch up",算法小廠 " 要不就算法上媲美 OpenAI,要不就垂直領域深耕應用,要不就開源 ",并預言 "infra 的需求繼續會猛增 "。
3、上手體驗派:比較多個視頻生成模型,聯動 Sora 和 Gemini 1.5
知名連續創業者 Gabor Cselle 在測試關于美麗東京白雪皚皚的提示詞後,得出的結論是 Sora 在長鏡頭上表現得更好。
Gabor Cselle 還讓谷歌 Gemini 1.5 Pro 觀看并分析評論了 OpenAI Sora 制作的視頻。
Sora 的原提示詞是:" 美麗、白雪皚皚的東京市熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟随幾個人享受美麗的雪天,在附近攤位上購物。絢麗的櫻花花瓣随雪花在風中飛舞。"
Gemini 1.5 Pro 給出的評論是:" 這段視頻拍攝的是日本一條下雪的街道,櫻花盛開。有一些不一緻的地方表明視頻可能是 AI 生成的。首先,雪下得很大,但櫻花還在盛開,櫻花通常開在春天,那時天氣溫暖,沒有雪;其次,雪以一種很均勻的方式落下,這與現實生活中的雪通常不同;第三,盡管下着雪,視頻中的人沒有穿任何冬天的衣服。總的來說,這段視頻在視覺上很吸引人,但前後矛盾之處表明這不是真實場景。"
4、技術分析派:Sora 或有 30 億參數,基礎論文被扒
含金量最高的當屬圍繞 Sora 核心技術的讨論。
PyTorch 創始人 Soumith Chintala 從視頻推測 Sora 是由遊戲引擎驅動的,并爲遊戲引擎生成組件和參數。
英偉達高級研究科學家 Jim Fan 評價 Sora 是 " 視頻生成的 GPT-3 時刻 "、" 數據驅動的物理引擎 ",認爲它通過一些去噪、梯度下降去學習複雜渲染、" 直覺 " 物理、長鏡頭推理和語義基礎等。
多倫多大學計算機科學 AI 助理教授 Animesh Garg 誇贊 OpenAI 做得好,評價 Sora 像是 " 模型質量的飛躍,它不需要快速的工程來實現随時間一緻的 RTX 渲染質量生成 "。
紐約大學助理教授謝賽甯高贊 Sora 是 " 難以置信的、将重塑視頻生成社區 ",并發表多篇推文進行分析,推測 Sora 建立在擴散 Transformer 模型之上,整個 Sora 模型可能有 30 億個參數。
值得一提的是,Meta 首席 AI 科學家楊立昆轉發評論稱他的前同事謝賽甯和他的前伯克利學生、現任 OpenAI 工程師的 William Peebles 前年合著的擴散 Transformer 論文,顯然是 Sora 的基礎。
論文地址:arxiv.org/abs/2212.09748
楊立昆還特意指出,這篇論文曾因 " 缺乏新穎性 " 而被計算機視覺學術頂會之一拒收。
下一章将附上大牛們更全面的技術分析。
二、每個視頻都能挑出錯,Sora 爲什麽還能這麽火?
OpenAI 在發布 Sora 的博客文章下方特意強調其展示的所有視頻示例均由 Sora 生成。比起 OpenAI 的承諾,更能證明 Sora 清白的是這些視頻中出現的各種生成式 AI" 靈魂錯誤 "。
比如,随着時間推移,有的人物、動物或物品會消失、變形或者生出分身;或者出現一些違背物理常識的鬧鬼畫面,像穿過籃筐的籃球、懸浮移動的椅子。
這些怪誕的鏡頭,說明 Sora 雖然能力驚人,但水平還不夠 " 封神 "。這也給它的競品和擔心工作被取代的人類留下了進化的餘地。
畢竟,AI 視頻生成已經斷斷續續火了一年多,而當前最晚出場的 Sora,就算是錯漏百出,也已經在時長、逼真度等方面甩開同行一條街。
▲主要視頻生成模型 / 技術對比(來源:東吳證券)
讓機器生成視頻,難點在于 " 逼真 "。比如一個人在同一個視頻裏的長焦和短焦鏡頭裏外觀不會變化;随着鏡頭轉動,站在山崖上的小狗應該跟山崖保持一緻的移動;咬一口面包,面包就會少一塊并出現牙印 …… 這些邏輯對人來說似乎顯而易見,但 AI 模型很難領悟到前一幀和後一幀畫面之間的各種邏輯和關聯。
首先要強調下生成式 AI 模型跟傳統信息檢索的區别。傳統檢索是按圖索骥,從數據庫固定位置調取信息,準确度高,但不具備舉一反三的能力。而生成式 AI 模型不會去記住數據本身,而是從大量數據中去學習和掌握生成語言、圖像或視頻的某種方法,産生難以解釋的 " 湧現 " 能力。
OpenAI 在技術報告裏總結了一些以前模型常用的視頻生成和建模方法,包括循環網絡、生成式對抗網絡、自回歸 Transformer 和擴散模型。它們隻能生成固定尺寸、時長較短的視頻。
而 Sora 實現了将 Transformer 和擴散模型結合的創新,首先将不同類型的視覺數據轉換成統一的視覺數據表示(視覺 patch),然後将原始視頻壓縮到一個低維潛在空間,并将視覺表示分解成時空 patch(相當于 Transformer token),讓 Sora 在這個潛在空間裏進行訓練并生成視頻。
接着做加噪去噪,輸入噪聲 patch 後 Sora 通過預測原始 " 幹淨 "patch 來生成視頻。OpenAI 發現訓練計算量越大,樣本質量就會越高,特别是經過大規模訓練後,Sora 展現出模拟現實世界某些屬性的 " 湧現 " 能力。
這也是爲啥 OpenAI 把視頻生成模型稱作 " 世界模拟器 ",并總結說持續擴展視頻模型是一條模拟物理和數字世界的希望之路。
令技術大牛們興奮的焦點就在這個能力上。
擴散 Transformer 模型論文第一作者謝賽甯發表了多篇推文,分享對 Sora 技術報告的看法:
先看架構,構建于擴散 Transformer(DiT)模型上,DiT= [ VAE 編碼器 + ViT + DDPM + VAE 解碼器 ] 。
其次是視頻壓縮網絡,看起來隻是一個訓練原始視頻數據的 VAE(一個 ConvNet),Token 化可能在獲得良好的時間一緻性方面發揮重要作用。
謝賽甯回顧說,在研究 DiT 項目時,他和 Bill 沒有創造 " 新穎性 ",而是優先考慮了簡單和可擴展性。
簡單意味着靈活。他認爲人們經常忽略掉一件很酷的事,當涉及到處理輸入數據時,如果讓模型方式更靈活。例如在 MAE 中,ViT 幫助我們隻處理可見 patches,而忽略掩碼 patches;類似的,Sora" 可通過在适當大小的網格中安排随機初始化的 patches 來控制生成視頻的大小 ",而 UNet 并不直接提供這種靈活性。
他猜測 Sora 可能還會使用谷歌的 Patch n ’ Pack(NaViT),使 DiT 适應各種分辨率 / 持續時間 / 寬高比。
論文地址:arxiv.org/abs/2212.09748
可擴展性是 DiT 論文的核心主題。就每 Flop 的時鍾時間而言,優化的 DiT 比 UNet 運行得快得多。更重要的是,Sora 證明了 Dil 擴展定律不僅适用于圖像,也适用于視頻—— Sora 複制了在 DiT 中觀察到的視覺擴展行爲。
謝賽甯推測在 Sora 報告中,第一個視頻的質量相當糟糕,懷疑它使用的是基本模型尺寸,并做了個粗略計算:DiT XL/2 是 B/2 模型的 5 倍 GFLOPs,所以最終的 16X 計算模型可能是 DiT-XL 模型大小的 3 倍,這意味着 Sora 可能有
大約 30 億個參數
——如果是真的,這不是一個不合理的模型大小。這可能表明,訓練 Sora 模型可能不需要像人們預期的那樣多的 GPU ——預計會有非常快的叠代。
在他看來,關鍵的收獲來自 " 新興的模拟能力 " 部分。在 Sora 之前,我們并不清楚長期的一緻性能否獨立出現,或者它是否需要複雜的主題驅動生成流水線,甚至是物理模拟器。OpenAl 已經證明,雖然不完美,但這些行爲可以通過端到端訓練來實現。但還有兩個要點尚未讨論:
1、訓練數據:
完全沒有談論訓練來源和構建,這可能隻是暗示數據可能是 Sora 成功的最關鍵因素。
2、(自回歸)長視頻生成:
Sora 的一個重大突破是能夠生成非常長的視頻。制作 2 秒視頻和 1 分鍾視頻的區别是巨大的。
在 Sora 中,這可能是通過允許自回歸采樣的聯合幀預測來實現的,但一個主要挑戰是如何解決誤差積累并保持質量 / 一緻性。一個非常長的(和雙向的)條件作用環境?或者擴大規模可以簡單地減輕這個問題?謝賽甯認爲這些技術細節可能非常重要,希望在未來能被揭開神秘面紗。
謝賽甯還不忘給自己團隊的新 DiT 模型 SiT 打個廣告:具有完全相同的架構,但提供了增強的性能和更快的收斂速度。對它在視頻生成上的表現也非常好奇。
Jim Fan 認爲,Sora 是一款數據驅動的物理模拟引擎,通過一些去噪和梯度計算來學習複雜的渲染、「直覺」物理、長遠規劃推理和語義基礎。它直接輸入文本 / 圖像并輸出視頻像素,通過大量視頻、梯度下降,在神經參數中隐式地學習物理引擎,它不會在循環中顯式調用虛拟引擎 5,但虛拟引擎 5 生成的(文本、視頻)對有可能會作爲合成數據添加到訓練集中。
他對 "Sora 并不是在學習物理,它隻是在操縱 2D 中的像素 " 觀點持反對意見,認爲這類似于說 "GPT-4 不學習編程,它隻是采樣字符串 "。
" 爲了生成可執行的 Python 代碼,GPT-4 必須在内部學習某種形式的語法、語義和數據結構。GPT-4 不顯式存儲 Python 語法樹。非常類似的,Sora 必須學習一些文生 3D、3D 轉換、光線追蹤渲染和物理規則的「隐式」形式,以便盡可能準确地建模視頻像素。它必須學習遊戲引擎的概念以滿足目标。"Jim Fan 寫道。
Jim Fan 認爲,如果不考慮交互,虛拟引擎 5 是一個(非常複雜的)生成視頻像素的過程,Sora 也是一個基于端到端 Transformers 的生成視頻像素的過程,它們在相同的抽象層次上,不同的是虛拟引擎 5 是人工制作的、精确的,而 Sora 純粹通過數據和 " 直覺 " 來學習。
在他看來,目前 Sora 對湧現物理的理解是脆弱的,遠非完美,仍會産生嚴重、不符合常識的幻覺,還不能很好掌握物體間的相互作用。
目前 Sora 的訓練數據源是業界普遍的關注重點,但 OpenAI 一如既往遵循 "ClosedAI" 原則,并沒有透露相關信息。
三、打開視頻創作便捷之門,或改變短視頻市場秩序
Sora 向非專業人士打開了一扇創造虛拟世界的便捷之門,盡管它還不能被立即使用,但它劇透了未來先進 AI 工具能帶來的新用途。
FutureHouseSF 聯合創始人 Andrew White 認爲,或許 Sora 可以模拟 " 我的世界 " 這個遊戲,甚至下一代遊戲機将是 Sora box,遊戲将以 2-3 段文字的形式發布。
00:00
/
00:20
當然,不完美的 Sora 在其生成的 48 個視頻 Demo 中留了不少穿幫畫面,如果将這些鏡頭放到影視劇裏或者作爲精心制作的長視頻的素材,需要做很多修補工作。
不過對于那些原本無法估量預算的拍攝場景,或者是資源有限的獨立創作者,AI 工具足以幫助節約相當可觀的成本。
一位專業動畫師 Owen Fern 分享說,自己不擔心 Sora 的原因是動畫是一個叠代過程,客戶會對每一幀的細節提出修改意見,比如這一幀的表情要更可愛、那一幀人物的鼻子要打高光 …… 人類可以一點點按需修改,而 AI 隻能全部推倒重來。
▲對 Sora 生成的動畫視頻逐幀提修改意見(來源:Owen Fern X 賬号)
如果用 AI 制作視頻的目的僅僅是 " 好玩 ",那麽用 Sora 生成一些不完美但吸睛的視頻,足夠在短視頻平台上掀起新的流行與狂歡。
用 AI 制作創意視頻固然無可厚非。但設想一下,當你被一些萌寵、萌娃視頻可愛到,當你被獨具風格的風景或室内設計驚豔到,然後得知這些其實是由 AI 生成的,會不會有種不舒服的感覺?
再試想,當你訂閱的博主賬号經常發一些漂亮或有趣的視頻,而這些視頻都是用 AI 制作的,運營這個賬号的幕後公司還擁有數千個應用類似 AI 手段的網紅賬戶,流水線般吸走訂閱者的時間。
無論是遊戲、專業視頻還是短視頻制作,隻要放在公共平台,至少有很多專業人士能來捕捉漏洞。但這類工具另一重風險,連 OpenAI 和谷歌都諱莫如深——人類想象力的黑暗面也是無限的,當進入尋常百姓家,AI 工具造成的負面影響可能失控。
AI 欺詐案件已經越來越頻發。由于人們在日常生活中通常不會逐幀分辨視頻真僞,愈發以假亂真的 AI 視頻生成和深度僞造技術足以化爲欺詐者和诋毀者手裏的利刃,刺向毫無防備的人。
結語:OpenAI 預計會謹慎考慮 Sora 對外開放時間
此前 OpenAI 花了大約半年來測試其大語言模型 GPT-4。如果測試 Sora 需要差不多的時長,這個強大的視頻生成工具可能會在 8 月份開放。不過考慮到深僞技術帶給美國大選的負面影響,OpenAI 估計會謹慎考慮正式公開 Sora 的時間。
在與谷歌 Gemini 1.5 Pro 相繼出場的輿論戰中,OpenAI Sora 可以說是取得了碾壓式勝利。畢竟相比暴走一年多的大語言模型,還是 " 眼見爲虛 " 的 60 秒視頻生成模型更有新鮮感和沖擊力。
但從實用性來看,風頭更勝一籌的 Sora 隻是展示了幾十個精選作品,離落地還有相當的距離。而 OpenAI 的大語言模型大本營正在被對手偷塔——谷歌突破的 100 萬 tokens 大招,能夠給長文本問答、視頻理解帶來驚人的效率飛升,OpenAI 必須盡快做出回擊。
生成式 AI 工具已經敲響了低水平繪畫、動畫、影視内容創作者的喪鍾。就像蒸汽機、發電機的發明會解放生産力,也會淘汰掉大量舊生産線上的工人,AI 同樣會頂替一些平凡的任務,淘汰掉一撥人,但最終将推動人類創新和創造力的進化。
随着各類生成式 AI 模型加速演進,我們看到一個完全由文本構建的整個世界,隻是時間問題。