2 月 16 日淩晨,OpenAI 在官網博客中介紹了最新的 AI 模型——文生視頻模型 Sora,它可以根據人們的文本描述生成原始視頻。
在放出的演示視頻中,Sora 可以生成清晰準确的角色,遠景、近景交錯但主題一緻的視頻,并且,已經能一次性生成最長 60s 的視頻。看着這些視頻,AI 根據劇本自動生成好萊塢電影,似乎已經向我們走來。
一經發布,社交平台 X 上,和 AI 以及視頻相關的創業者坐不住了。
YouTube 頭部網紅 MrBeast 回應 Sam Altman 發布 Sora 模型的推特時,打趣道:Sam,請不要讓我無家可歸。
Runway 聯合創始人、CEO Cris Valenzuela 發推稱:比賽開始了。
但 OpenAI 沒有拘泥于在花哨的視頻本身中,對于 Sora 文生視頻,OpenAI 表示:這是通向 AGI 的裏程碑事件。
01 60s、語言理解、物理世界交互
據 OpenAI 官網,Sora 模型的目标是「理解和模拟運動中的物理世界」。當前,它的最大亮點是可以生成長達 1 分鍾的視頻,并且,在這 1 分鍾的視頻中,可以保證視覺質量,遵守用戶提示詞。舉例來說,Sora 可以生成一系列複雜場景的視頻,包括多個角色、特定類型的運動、以及在特定主題和背景下的精确細節等。
輸入如下提示詞,Sora 生成的視頻:美麗、白雪皚皚的東京城市熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟随幾個人享受美麗的雪天,在附近的攤位上購物。絢麗的櫻花花瓣随着雪花在風中飛舞。|來源:OpenAI
Sora 模型根據提示詞,可以生成如此程度的準确視頻,意味着它對語言的理解能力出衆。
它不僅理解用戶在提示詞中想要什麽,還理解這些東西應該如何在物理世界中存在。相應地,Sora 可以基于對提示詞的理解,精确闡述、演繹提示詞,生成恰當的角色來表達極具張力的情緒。
如下提示詞 Sora 生成的視頻:一個美麗的自制視頻,展示了 2056 年尼日利亞拉各斯(Lagos)的人們,用手機相機拍攝的。|來源:OpenAI
在一衆的演示視頻中,你會發現,Sora 還可以在一個生成的視頻中創建多個鏡頭。不僅如此,即便在近景、遠景、不同角度的鏡頭下,也能保持角色和視覺風格的一緻性。
當然,OpenAI 也在官網承認,Sora 還遠非完美。它可能難以準确地模拟複雜場景下的物理世界,也可能無法理解一些場景下的因果關系,比如,一個人可能咬了一口餅幹,但之後,餅幹上可能沒有咬痕。
此外,Sora 還可能混淆提示詞裏諸如「左、右」一樣的空間細節,并且可能難以精确描述随時間發生的事件。
OpenAI 沒有透露 Sora 模型何時公開,但表示将與有限數量的外部人士分享。當地時間 2 月 15 日一整天,OpenAI CEO Sam Altman 都在他的 X 社交媒體賬戶上發布 Sora 生成的視頻。他讓粉絲給出提示詞,他發布該提示詞下 Sora 生成的視頻。
OpenAI 稱,盡早分享研究進展是爲了與外界展開合作、獲得反饋,也讓公衆了解 AI 的進展。「我們也讓一些視覺藝術家、設計師和電影制作人訪問,以獲得推進該模型以對創意專業人士最有幫助的反饋」。
除此之外,用來評估 Sora 危害或風險的「紅隊」(red teamers)可以提前測試該模型。這裏的紅隊是指,錯誤信息、仇恨内容和偏見等領域的專家,他們将對抗性地測試該模型,從而評估如何防止 Sora 被濫用來制造錯誤信息或其他有害内容。
OpenAI 表示,在把 Sora 應用于 OpenAI 的産品之前,将采取一些重要的安全措施。
02「物理世界 GPT」
官方博客中,OpenAI 稱 Sora 的目标是「理解和模拟現實」,這也是是英偉達 Omniverse 多年來押注的未來。看到 Sora 的能力,英偉達高級科學家,AI Agent 負責人 Jim Fan 盛贊其強大模型背後的技術突破。
Jim Fan 在 X 社交媒體發表上述觀點|來源:twitter.com
他稱,「如果你認爲 OpenAI Sora 是一個像 DALLE 一樣的創意玩具……再想想。Sora 是一個數據驅動的物理引擎,是對現實或幻想世界的模拟。這一模拟器通過去噪和梯度數學,來學習複雜渲染、『直覺』物理(「intuitive」physics)、長視野推理(long-horizon reasoning)和語義基礎。」
在其背後的技術實現上,Jim Fan 認爲,Sora 一定使用了 Unreal Engine 5 生成的大量合成數據來訓練。
在技術聲明中,OpenAI 尚未介紹 Sora 模型的訓練數據等細節,稱将在 2 月 16 日晚些時候,發布技術論文。
在已公布的信息中,Sora 是一個擴散模型,從一個看起來像靜态噪聲的視頻開始,通過許多步驟去除噪聲來逐漸形成最終視頻。并且,Sora 能夠一次性生成整個視頻,或者擴展已生成的視頻使其更長。
OpenAI 稱,通過賦予模型一次預測許多幀的能力,解決了一個具有挑戰性的問題,即确保一個主題即使暫時消失在視野之外也保持不變。
與 GPT 模型類似,Sora 使用 Transformer 架構,具備卓越的縮放性能。
對于 Sora 模型的重要意義,OpenAI 在官方博客結尾指出,「Sora 作爲能夠理解和模拟現實世界的模型基礎,我們相信這一能力将是實現 AGI 的重要裏程碑。」
顯然,OpenAI 的目标依舊是 AGI 的實現,在這個恢弘的目标下,其在集結資源和自身能力上的領先優勢,又一次體現出超越一般創業公司的綜合實力。
此前,Pika 聯合創始人 Demi Guo 在接受極客公園的采訪時表示,在文生視頻賽道,相比基于現有模型能力做功能優化、打補丁,模型能力本身才是決定文生視頻産品成敗最關鍵的因素。
一經發布,OpenAI 的 Sora 模型再次刷新 AI 文生視頻的超能力,顯然對這個賽道那些已經發布産品的初創公司形成了巨大壓力:Runway、Synthesia、Pika、Rephrase.ai ……
就像 Runway 聯合創始人、CEO Crist ó bal Valenzuela 在幾個小時前說的那樣:比賽開始了。
其實,這句看起來「不服輸」的話,并不準确。Sora 的出現,讓「視頻生成賽道」基于上一代模型技術的産品比賽,已經結束了。現在開始的,将是一場全新的技術比賽,而不隻是産品的比拼。