OpenAI 的文生視頻模型 Sora 刷屏了。
它有多震撼呢?這麽說吧,上一次這麽瘋狂的刷屏可能還是人類第一次見到 ChatGPT 的時候。以及,Sora 之前幾小時 Google 剛剛推出了它最強的 LLM Gemini1.5,并試圖宣稱自己終于殺死了 GPT-4,然而,顯然現在沒人關注了。
因爲看完 Sora 你可能會發現,OpenAI 自己可能要用它先殺死 GPT-4 了。
每個人都可以創造自己的世界了
先來看看 Sora。
人們一直期待 GPT-5,但 Sora 帶來的轟動不亞于一次 GPT-5 的發布。
作爲 OpenAI 首推的文本轉視頻模型,Sora 能夠根據文本指令或靜态圖像生成長達 1 分鍾的視頻,其中包含精細複雜的場景、生動的角色表情以及複雜的鏡頭運動。同時也接受現有視頻擴展或填補缺失的幀。
每條提示 60 秒的視頻長度與 Pika Labs 的 3 秒、Meta Emu Video 的 4 秒、和 Runway 公司 Gen-2 的 18 秒相比,妥妥地鐵赢了。并且從官方發布的演示來看,無論從視頻流暢度還是細節表現能力上,Sora 的效果都相當驚豔。
比如官推裏這條 14 秒的東京雪景視頻。
提示詞:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
「美麗的,被雪覆蓋的東京正繁忙着。鏡頭穿過繁忙的城市街道,跟随着幾個享受雪景和在附近攤位購物的人。美麗的櫻花瓣随風飄落,與雪花一同飛舞。」
穿着時尚的女性漫步在霓虹背景的東京街頭,地面有積水倒影。
對于五官和皮膚的刻畫十分真實,特别是痘印和法令紋,細節讓人驚歎。
猛犸象自冰川雪原中緩步從來,背後升騰起雪霧。
燭火旁純真頑皮的 3D 動畫小怪物,光影、表情和毛茸茸的細節滿分:
一名 24 歲女性的眼部特寫,足以以假亂真。
無人機視角的海浪拍打着 Big Sur 加瑞角海岸崖壁,落日灑下金色光芒。
窗台上的花朵開放延時影像:
民衆們上街舞龍,慶祝中國農曆春節。
可愛小貓咪在線安撫起床氣。
夜晚街道跑着的快樂小狗。
兩艘微型海盜船在一杯咖啡裏對峙。
加州淘金時代罕見 " 曆史影像 " 流出—— 像嗎?Sora 做的。
目前 Sora 還在測試階段,僅對部分評估人員、視覺藝術家、設計師和電影制作人們開放訪問權限,拿到試用資格的人們已經開始想象力橫飛。
Sam Altman 就轉發網友用 Sora 制作的 " 金光燦燦動物園 " 視頻,玩起了自己的 "What" 梗:
他還邀請大家踴躍提出想用 Sora 制作視頻的提示詞,團隊馬上爲大家生成,瞬間 8 千多條回複。
網友腦洞大開,要看海洋生物的自行車公開賽。
兩隻金毛在山上戴着耳機開播客。
當然也不忘 cue 一下去向成謎的 Ilya,要求生成一個 "Ilya 眼中的真實世界 "。
不過 OpenAI 也表示,雖然 Sora 對自然語言有着深入的理解,能夠準确洞悉提示詞,生成表達豐富的内容,并可以創建多個鏡頭、保持角色和視覺風格的一緻性,但仍不可避免地存在一些弱點。
例如,它在準确模拟複雜場景的物理現象方面存在困難,也可能不理解特定的因果關系。比方說 " 一個人咬一口餅幹後,餅幹上可能并沒有咬痕。"
模型也可能混淆提示的空間細節,像是弄錯左右。或者 " 在準确體現随時間發生的事件方面遇到困難,比如遵循特定的攝像機軌迹 "。
Sora 也使用了 DALL · E 3 的 recaptioning 技術,該技術涉及爲視覺訓練數據生成高度描述性的标題。因此模型能夠更忠實地按照用戶在生成視頻中的文本指令進行操作。
它能夠一次性生成整個視頻,或是擴展已生成的視頻使其變長。通過讓模型一次性預見多幀,解決了即使主體暫時離開視線也能保持不變的挑戰性問題。
關于安全性,OpenAI 表示正與錯誤信息、仇恨内容和偏見等領域的專家合作,對模型進行對抗性測試。同時也在開發幫助檢測誤導性内容的工具,識别視頻是否由 Sora 生成。對于違反使用政策的文本提示,例如暴力、仇恨和侵犯他人知識産權等内容,将拒絕顯示給用戶。
除此以外,爲 DALL · E 3 産品構建的現有安全方法也同樣适用于 Sora。
" 盡管進行了廣泛的研究和測試,我們仍無法預測人們将如何利用我們的技術,也無法預見人們如何濫用它。這就是爲什麽我們相信,從真實世界的用例中學習,是随時間構建越來越安全的 AI 系統的關鍵組成部分。"
OpenAI 對 Sora 信心滿滿,認爲這爲模型理解和模拟真實世界奠定了基礎,是 " 實現 AGI 的重要裏程碑 "。
網友們也第 n+1 次紛紛哀悼起相關賽道的公司們:
"OpenAI 就是不能停止殺死創業公司。"
" 天哪,現在起我們要弄清什麽是真的,什麽是假的。"
" 我的工作沒了。"
" 整個影像素材行業被血洗,安息吧。"
能殺死 GPT-4 的世界模型?這不就是嗎
OpenAI 一如既往沒有給出很詳細的技術說明,但一些隻言片語已經足夠讓你浮想聯翩。
其中最吸引我們注意的第一個點,是對數據的處理。
Sora 是一個擴散模型(diffusion model),采用類似 GPT 的 Transformer 架構。而在解決訓練中文本資料與視頻數據之間的統一方面,OpenAI 表示,他們在處理圖像和視頻數據時,把對它們進行分割後得到的最小單元,稱爲小塊(patches),也就是對應 LLM 裏的基本單元 tokens。
這是一個很重要的技術細節。把它作爲模型處理的基本單元,使得深度學習算法能夠更有效地處理各種視覺數據,涵蓋不同的持續時間、分辨率和寬高比。
從最終的震撼效果看,你很難不得出這樣一個結論:對語言的理解能力,是可以遷移到對更多形态的數據的理解方法上去的。
此前的 Dalle-3 的效果就被公認很大程度來自 OpenAI 在 GPT 上積累的領先 N 代的語言能力,哪怕是個圖像爲輸出的模型,語言能力提升也是至關重要的。而今天的視頻模型,同樣如此。
至于它是如何做到的,有不少行業内的專家給出了相同的猜測:它的訓練數據裏使用了遊戲領域最前端的物理引擎 Unreal Engine5,簡單粗暴的理解,就是語言能力足夠強大之後,它帶來的泛化能力直接可以學習引擎生成的圖像視頻數據和它體現出的模式,然後還可以直接用學習來的,引擎最能理解的方式給這些利用了引擎的強大技術的視覺模型模塊下指令,生成我們看到的逼真強大的對物理世界體現出 " 理解 " 的視頻。
基于這個猜測,OpenAI 簡短的介紹中的這句話似乎就更加重要了:
"Sora 是能夠理解和模拟現實世界的模型的基礎,OpenAI 相信這一功能将成爲實現 AGI 的重要裏程碑。"
理解,現實,世界。
這不就是人們總在争論的那個唯一有可能 " 幹掉 "GPT-4 的世界模型。現在,OpenAI 搞出來了它的雛形,擺在了你的面前。
看起來,這個模型學會了關于 3D 幾何形狀和一緻性的知識,而且并非 OpenAI 訓練團隊預先設定的,而是完全是通過觀察大量數據自然而然地學會的。負責 Sora 訓練的 OpenAI 科學家 Tim Brooks 表示,AGI 将能夠模拟物理世界,而 Sora 就是邁向這個方向的關鍵一步。
顯然,在 OpenAI 眼裏,它不隻是一個 " 文生視頻模型 ",而是更大的東西。
我們如果嘗試進一步給一個暴論,就是:語言是理解一切的基礎,當AI用語言的能力來理解了視頻後,世界模型就有可能會到來。
可能這才是比今天刷屏感慨 " 現實不存在了 " 之外,更恐怖的地方。這可能是人類通往 AGI 的又一個 ChatGPT 時刻。