OpenAI「AI 視頻」工具出爐：别争了，「視頻 GPT」還是我的！

2 月 16 日淩晨，OpenAI 在官網博客中介紹了最新的 AI 模型——文生視頻模型 Sora，它可以根據人們的文本描述生成原始視頻。

在放出的演示視頻中，Sora 可以生成清晰準确的角色，遠景、近景交錯但主題一緻的視頻，并且，已經能一次性生成最長 60s 的視頻。看着這些視頻，AI 根據劇本自動生成好萊塢電影，似乎已經向我們走來。

一經發布，社交平台 X 上，和 AI 以及視頻相關的創業者坐不住了。

YouTube 頭部網紅 MrBeast 回應 Sam Altman 發布 Sora 模型的推特時，打趣道：Sam，請不要讓我無家可歸。

Runway 聯合創始人、CEO Cris Valenzuela 發推稱：比賽開始了。

但 OpenAI 沒有拘泥于在花哨的視頻本身中，對于 Sora 文生視頻，OpenAI 表示：這是通向 AGI 的裏程碑事件。

01 60s、語言理解、物理世界交互

據 OpenAI 官網，Sora 模型的目标是「理解和模拟運動中的物理世界」。當前，它的最大亮點是可以生成長達 1 分鍾的視頻，并且，在這 1 分鍾的視頻中，可以保證視覺質量，遵守用戶提示詞。舉例來說，Sora 可以生成一系列複雜場景的視頻，包括多個角色、特定類型的運動、以及在特定主題和背景下的精确細節等。

輸入如下提示詞，Sora 生成的視頻：美麗、白雪皚皚的東京城市熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道，跟随幾個人享受美麗的雪天，在附近的攤位上購物。絢麗的櫻花花瓣随着雪花在風中飛舞。｜來源：OpenAI

Sora 模型根據提示詞，可以生成如此程度的準确視頻，意味着它對語言的理解能力出衆。

它不僅理解用戶在提示詞中想要什麽，還理解這些東西應該如何在物理世界中存在。相應地，Sora 可以基于對提示詞的理解，精确闡述、演繹提示詞，生成恰當的角色來表達極具張力的情緒。

如下提示詞 Sora 生成的視頻：一個美麗的自制視頻，展示了 2056 年尼日利亞拉各斯（Lagos）的人們，用手機相機拍攝的。｜來源：OpenAI

在一衆的演示視頻中，你會發現，Sora 還可以在一個生成的視頻中創建多個鏡頭。不僅如此，即便在近景、遠景、不同角度的鏡頭下，也能保持角色和視覺風格的一緻性。

當然，OpenAI 也在官網承認，Sora 還遠非完美。它可能難以準确地模拟複雜場景下的物理世界，也可能無法理解一些場景下的因果關系，比如，一個人可能咬了一口餅幹，但之後，餅幹上可能沒有咬痕。

此外，Sora 還可能混淆提示詞裏諸如「左、右」一樣的空間細節，并且可能難以精确描述随時間發生的事件。

OpenAI 沒有透露 Sora 模型何時公開，但表示将與有限數量的外部人士分享。當地時間 2 月 15 日一整天，OpenAI CEO Sam Altman 都在他的 X 社交媒體賬戶上發布 Sora 生成的視頻。他讓粉絲給出提示詞，他發布該提示詞下 Sora 生成的視頻。

OpenAI 稱，盡早分享研究進展是爲了與外界展開合作、獲得反饋，也讓公衆了解 AI 的進展。「我們也讓一些視覺藝術家、設計師和電影制作人訪問，以獲得推進該模型以對創意專業人士最有幫助的反饋」。

除此之外，用來評估 Sora 危害或風險的「紅隊」（red teamers）可以提前測試該模型。這裏的紅隊是指，錯誤信息、仇恨内容和偏見等領域的專家，他們将對抗性地測試該模型，從而評估如何防止 Sora 被濫用來制造錯誤信息或其他有害内容。

OpenAI 表示，在把 Sora 應用于 OpenAI 的産品之前，将采取一些重要的安全措施。

02「物理世界 GPT」

官方博客中，OpenAI 稱 Sora 的目标是「理解和模拟現實」，這也是是英偉達 Omniverse 多年來押注的未來。看到 Sora 的能力，英偉達高級科學家，AI Agent 負責人 Jim Fan 盛贊其強大模型背後的技術突破。

Jim Fan 在 X 社交媒體發表上述觀點｜來源：twitter.com

他稱，「如果你認爲 OpenAI Sora 是一個像 DALLE 一樣的創意玩具……再想想。Sora 是一個數據驅動的物理引擎，是對現實或幻想世界的模拟。這一模拟器通過去噪和梯度數學，來學習複雜渲染、『直覺』物理（「intuitive」physics）、長視野推理（long-horizon reasoning）和語義基礎。」

在其背後的技術實現上，Jim Fan 認爲，Sora 一定使用了 Unreal Engine 5 生成的大量合成數據來訓練。

在技術聲明中，OpenAI 尚未介紹 Sora 模型的訓練數據等細節，稱将在 2 月 16 日晚些時候，發布技術論文。

在已公布的信息中，Sora 是一個擴散模型，從一個看起來像靜态噪聲的視頻開始，通過許多步驟去除噪聲來逐漸形成最終視頻。并且，Sora 能夠一次性生成整個視頻，或者擴展已生成的視頻使其更長。

OpenAI 稱，通過賦予模型一次預測許多幀的能力，解決了一個具有挑戰性的問題，即确保一個主題即使暫時消失在視野之外也保持不變。

與 GPT 模型類似，Sora 使用 Transformer 架構，具備卓越的縮放性能。

對于 Sora 模型的重要意義，OpenAI 在官方博客結尾指出，「Sora 作爲能夠理解和模拟現實世界的模型基礎，我們相信這一能力将是實現 AGI 的重要裏程碑。」

顯然，OpenAI 的目标依舊是 AGI 的實現，在這個恢弘的目标下，其在集結資源和自身能力上的領先優勢，又一次體現出超越一般創業公司的綜合實力。

此前，Pika 聯合創始人 Demi Guo 在接受極客公園的采訪時表示，在文生視頻賽道，相比基于現有模型能力做功能優化、打補丁，模型能力本身才是決定文生視頻産品成敗最關鍵的因素。

一經發布，OpenAI 的 Sora 模型再次刷新 AI 文生視頻的超能力，顯然對這個賽道那些已經發布産品的初創公司形成了巨大壓力：Runway、Synthesia、Pika、Rephrase.ai ……

就像 Runway 聯合創始人、CEO Crist ó bal Valenzuela 在幾個小時前說的那樣：比賽開始了。

其實，這句看起來「不服輸」的話，并不準确。Sora 的出現，讓「視頻生成賽道」基于上一代模型技術的産品比賽，已經結束了。現在開始的，将是一場全新的技術比賽，而不隻是産品的比拼。