OpenAI今天刷屏的視頻模型，是如何做到這麽強的？

* 本文原創發布于差評孵化的商業财經類帳号 " 知危 "

今天淩晨，OpenAI 發布了新的文生視頻大模型，名爲 " Sora "。

Sora 模型可以生成最長 60 秒的高清視頻，生成的畫面可以很好的展現場景中的光影關系、各個物體間的物理遮擋、碰撞關系，并且鏡頭絲滑可變。

相信大家已經在朋友圈看到了非常多的文章在展示 OpenAI 的官方演示視頻，由于生成内容的安全問題 Sora 還未開放測試，我們無法獲取更多差異化信息，所以知危編輯部在此不再重複展示 Sora 模型的效果。

下面，我們想重點探讨爲何 Sora 模型的效果看起來遠超市面上我們見過的其他文生視頻模型，他們都做了什麽？

以防您沒在朋友圈看到，我們仍放一個示例視頻

示例視頻的生成提示詞爲：一位時尚的女人走在東京的街道上，街道上到處都是溫暖的發光霓虹燈和動畫城市标志。她身穿黑色皮夾克，紅色長裙，黑色靴子，背着一個黑色錢包。她戴着墨鏡，塗着紅色口紅。她自信而随意地走路。街道潮濕而反光，營造出五顔六色的燈光的鏡面效果。許多行人四處走動。

首先，在文生視頻領域，比較成熟的模型思路有循環網絡（ RNN ）、生成對抗網絡（ GAN ）和擴散模型（ Diffusion models ），而本次 OpenAI 推出的 Sora 則是一種擴散模型。

雖然 GAN 模型之前一直很火，但圖像和視頻生成相關的領域，現在處于被擴散模型統治的階段。

因爲擴散模型是有非常卓越的優越性的，相較于 GAN，擴散模型的生成多樣性和訓練穩定性都要更好。而最重要的是，擴散模型在圖片和視頻生成上有更高的天花闆，因爲 GAN 模型從原理上來看本質上是機器對人的模仿，而擴散模型則更像是機器學會了 " 成爲一個人 "。

這麽說或許有些抽象，我們換一個不嚴謹但通俗好理解的例子：

GAN 模型像是一個勤奮的畫家，但不太受控制，因爲畫家（生成器）一邊不停對着先作（訓練源）畫畫，然後另一邊老師（判别器）也不停打分。就在大戰無數個回合之後，畫家和老師瘋狂升級進步，最後直到畫家畫出逼真的畫，但整個過程不太好控制，經常練着練着就走火入魔，輸出一些誰也看不懂的玩意兒。同時，他的提升過程本質上是對先作的不斷模仿，所以他還缺乏創造力，導緻天花闆也潛在會比較低。

而擴散模型，則是一個勤奮且聰明的畫家，他并不是機械的仿作，而是在學習大量先作的時候，他學會了圖像内涵與圖像之間的關系，他大概知道了圖像上的 " 美 " 應該是什麽樣，圖像的某種 " 風格 " 應該是什麽樣，他更像是在思考，他是比 GAN 更有前途的畫家。

也就是說，OpenAI 選擇擴散模型這個範式來創造文生視頻模型，在當下屬于開了個好頭，選擇了一個有潛力的畫家來培養。

那麽，另一個疑問就出現了，由于大家都知道擴散模型的優越性，除了 OpenAI 以外，同樣在做擴散模型的還有很多友商，爲什麽 OpenAI 的看起來更驚豔？

因爲 OpenAI 有這樣一個思維：我曾經在大語言模型上獲得了非常好的效果、獲得了如此巨大的成功，那我有沒有可能參考這個經驗獲得一次新的成功呢？

答案是可以。

OpenAI 認爲，之前在大語言模型上的成功，得益于 Token（可以翻譯成令牌、标記、詞元都可，翻譯爲詞元會更好理解一些），Token 可以優雅的把代碼、數學以及各種不同的自然語言進行統一進而方便規模巨大的訓練。于是，他們創造了對應 Token 的 " Patche " 概念（塊，如果 Token 翻譯爲詞元理解的話，Patche 或許可以被我們翻譯爲 " 圖塊 " ）用于訓練 Sora 這個視頻模型。

實際上，在大語言模型中，Token 的應用之所以會如此成功，還得益于 Transformer 架構，他與 Token 是搭配着來的，所以 Sora 作爲一個視頻生成擴散模型，區别于主流視頻生成擴散模型采用了 Transformer 架構。（主流視頻生成擴散模型較多采用 U-Net 架構）

也就是說，OpenAI 赢在了經驗與技術路線的選擇上。

但是，Transformer 架構這個 " 成功密碼 " 人盡皆知，在文字、圖像生成上已經成爲了主流，爲什麽别人沒想着在視頻生成上用，OpenAI 就用了呢？

這源自另外一個問題：Transformer 架構中全注意力機制的内存需求會随着輸入序列長度而二次方增長，所以處理視頻這樣的高維信号時，計算成本會非常非常高。

通俗點說，就是雖然用了 Transformer 效果會好，但所需的計算資源也是非常恐怖的，這麽做不是很經濟。

當然，OpenAI 雖然拿各種融資拿到手軟，但也依然沒那麽财大氣粗，所以他們并沒有直接猛砸資源，而是想了另外一種方式來解決計算成本高昂的問題。

這裏我們要先引入 " latent " （潛）這一概念，它是一種 " 降維 " 或者說是 " 壓縮 "，意在用更少的信息去表達信息的本質。我們列舉一個不恰當但好理解的例子，這就好像我們用一個三視圖就能保存記錄一個簡單的立體物體的結構，而非一定要保存這個立體本身。

OpenAI 爲此開發了一個視頻壓縮網絡，把視頻先降維到潛空間，然後再去拿這些壓縮過的視頻數據去生成 Patche，這樣就能使輸入的信息變少，有效減小 Transformer 架構帶來的計算量壓力。

如此一來，大部分問題就都解決了，OpenAI 成功地把文生視頻模型套進了其在過去取得巨大成功的大語言模型的範式裏，所以效果想不好都難。

除此之外，OpenAI 在訓練上的路線選擇也稍有不同。他們選擇了 " 原始尺寸、時長 " 訓練，而非業内常用的 " 把視頻截取成預設标準尺寸、時長 " 後再訓練。

這樣的訓練給 Sora 帶來了諸多好處：

①生成的視頻能更好地自定義時長；

②生成的視頻能夠更好地自定義視頻尺寸；

③視頻會有更好的取景和構圖；

前兩點很好理解，第三點 OpenAI 給出了範例，他們做了一個截取尺寸視頻訓練和原始尺寸視頻訓練的模型對比：

左側爲截取尺寸視頻訓練後模型生成的視頻

右側爲原始尺寸視頻訓練後模型生成的視頻

另外，爲了文生視頻能夠更好地理解用戶的意圖，達到更好的生成效果，OpenAI 也在 Sora 模型上加入了一些巧思。

首先，訓練 Sora 這樣的文生視頻模型，需要大量含有文本說明的視頻素材，所以 OpenAI 利用自家 DALL · E 3 的 re-captioning 功能，給訓練用的視頻素材都加上了高質量文本描述，他們表示這樣可以提高輸出視頻的整體質量。

除了訓練端，在輸入端他們也動了腦筋，用戶輸入的提示詞并非直接交給 Sora 進行生成的，OpenAI 利用了 GPT 的能力，在用戶給 Sora 輸入提示詞的時候，GPT 會先将用戶輸入的提示詞進行精準的詳盡擴寫，然後再将擴寫後的提示詞交給 Sora，這樣能更好地讓 Sora 遵循提示詞來生成更精準的視頻。

好了，到這裏，我們對 Sora 模型爲什麽看起來更強的簡要解析就結束了。

從整體來看，你會發現 Sora 模型的成功并非偶然，他能有如此驚豔的效果，全都得益于 OpenAI 過去的工作，包括 GPT、DALL · E 等，有些是直接調用，有些是借用了思路。

或許我們可以說，OpenAI 自己先成爲了一個巨人，然後再站在自己這個巨人的肩膀上，成爲了一個新的巨人。

而相對應的是，無論國内還是國外的其他競争對手，或許會因爲文生文、文生圖上的技術差，在未來被甩的更遠。

所謂 " 彎道超車 "、" 差距隻有 X 個月 "，或許是不存在的，隻是自我安慰。

撰文：二筒