Sora來了，即夢可靈松了一口氣

文 | 定焦 One（dingjiaoone），作者 | 王璐，編輯 | 魏佳

全網苦等 10 個月的 Sora，終于亮相。

北京時間 12 月 10 日淩晨，OpenAI 直播第三彈，宣布旗下視頻生成模型 Sora 正式面向大衆推出。

自今年 2 月首次預告以來，Sora 僅向一些藝術家、知名演員和導演提供試用服務，但遲遲未上線，吊足大衆胃口。此次一經發布，立即激發起全球網友的熱情，擠爆服務器。

「定焦 One」注意到，與上一個版本相比，此次的 Sora Turbo 支持生成 1080p 分辨率、最長 20 秒的視頻，在時長上有明顯突破。更大的亮點在于它提供 " 編輯 " 服務，除了單純的文生視頻、圖生視頻、視頻生視頻，用戶還可以通過指令實現視頻重混、重新剪輯、循環、混合等功能，更像是一個加強版的視頻編輯器。

Sora 正式發布後，一個問題也被擺上台前：國内的 Sora 們，準備好迎接挑戰了嗎？

「定焦 One」第一時間進行了實測對比，至于結果，遠沒有想象中那麽糟。

新版 Sora，不止文生視頻

綜合多位業内人士的觀點，Sora 的變化主要集中在兩方面。

一是時長，Sora Turbo 支持用文字、圖片或視頻單次生成最長 20 秒的視頻（此前發布的演示視頻最長爲 60 秒，但不是公開使用版本），有寬屏、豎屏、方屏比例可選。而國内 AI 視頻生成軟件單次大多僅支持 5-10 秒。

能生成的視頻時間越長，意味着對其内容一緻性、避免重複、銜接過渡上要求更高，模型的優化和訓練數據的質量在其中起着關鍵作用。

二是它強大的 " 編輯 " 功能，包括 Remix（重混）、Re-cut（重新剪輯）、Storyboard（故事闆）、Loop（循環）、Blend（混合）以及 Style presets（風格預設）。

此前，AI 生成視頻的一大痛點在于一次性生成以後很難再調整，這次 Sora 一定程度上解決了這個問題。

我們拿其中三個亮眼的新功能來詳細說明。

Remix（重混）可以替換、移除或重新生成視頻中的某個要素，例如，在生成 " 推開圖書館的大門 " 後（上圖），可以輕易将大門換成法式風格（下圖）。

Storyboard（故事闆）功能絕對是視頻創作者的輔助利器，可以精準指定每一幀的内容，控制每個時間段的畫面。

比如，讓視頻的前 114 幀生成 " 紅色的背景下，遠處停靠着一艘宇宙飛船 "。

接着，将 114-324 幀的場景變爲，" 從宇宙飛船内部向外看，一位宇航員站在中間 "。

最後在 324-440 幀，将畫面聚焦到宇航員眼睛的特寫鏡頭，他的眼睛被針織面料制成的面罩包裹住。

Blend（混合）功能可以把兩個視頻混合在一起，Sora 演示了将雪花飄落和花朵飄落的視頻混合在一起，過渡非常自然。OpenAI 方面稱，這是其它 AI 視頻從未見過的功能。

需要注意的是，這些功能雖然驚豔，但 Sora 目前僅在部分國家提供服務，英國、中國大陸等地暫不能使用。

在收費方面，Sora 對 ChatGPT 的 Plus 會員（每月 20 美元）和 Pro 會員（每月 200 美元）直接開放使用，Plus 會員每月可生成 50 個 480P 分辨率的視頻，Pro 會員則擁有不限次慢速生成的額度。

Sora 來了，可靈、即夢們先别慌

從 Sora 亮相到發布的這 10 個月裏，國内的 Sora 們一直在抓緊追趕。此次 Sora 正式發布後，「定焦 One」挑選了國内外幾家比較有代表性的 AI 生成視頻工具，進行實測對比。

先看各大工具在生成秒數、收費價格上的情況。

單次生成秒數上，Sora 憑借 20 秒領先，緊随其後的是 Runway，可以達到 10 秒，相比之下，國内的産品普遍都在 5-6 秒。

需要說明的是，白日夢雖然最長可達 6 分鍾，但非單次文生視頻長度，它根據文字提示先生成人物，然後再生成分鏡、編輯圖片，最後連成一段視頻，所以支持的時間較長。

在收費上，國内的産品都可以不付費體驗，有些會限制使用次數。Sora 則必須付費才可以使用，且門檻不低，20 美元起步，Runway 其次，最低月付費 15 美元。

再看各家提供的具體功能及對應效果。

綜合從業者的說法以及 Sora 最新發布的功能，我們從兩個維度進行測試。

1、基礎功能：主要測試文生視頻的能力，考察産品對文字指令的理解度、運動過程中人物面部的清晰度和多人物的準确度。爲了覆蓋以上三個難點，「定焦 One」給出了兩條提示詞：

第一條：鏡頭中景拍攝，夕陽下，兩個長頭發的女生，一個穿着黃裙子，一個穿着藍裙子，手裏都拿着胡蘿蔔，旁邊還有三隻小兔子，小兔子慢慢跑過去吃胡蘿蔔，電影級調色。

這條主要測試多主體數量的準确度，讓人大跌眼鏡的是，Sora 沒能識别出主體數量，隻生成了兩隻兔子（測試時已将提示詞轉換爲英文），不過，其他的地方都是比較準确的。

Sora 提示詞

同樣踩坑的還有通義萬相，不僅弄丢了一隻兔子，還增加了一個女孩。

其他産品表現較好，均能準确理解提示詞，隻是在畫風上有所差異。

第二條：鏡頭特寫拍攝，燈光，一個有着一頭黑色卷發的中式少女，穿着一條白裙子，胸前手握一束粉色鮮花，眼睛先低頭看鮮花，然後慢慢擡起頭來微笑，電影級調色。

這條主要測試各工具對于人物面部的特寫，以及對複雜指令的理解程度。

從生成效果來看，幾家都理解了特寫拍攝、少女、裙子、粉色鮮花、低頭看花、微笑等人、物和動作，但問題出在指令解讀上，比如可靈沒有讀懂 " 一個有着一頭黑色卷發的中式少女 "，随後我們換成 " 一個中式少女、黑色長卷發 " 才成功生成。

可靈提示詞

各家對 " 中式少女 " 的理解也不盡相同，比如智譜清言生成人物的更像外國女孩，相比之下，在 FilmAction 裏選擇新中式風格，先文生圖，再圖生視頻的理解最好，但使用起來也複雜一些。

「定焦 One」還對比了 AI 工具這半年來的進化速度。以即夢爲例，和五個月前相比，人物真實感有明顯提高。

即夢之前生成的視頻

綜上，在基礎功能上，Sora 的表現還談不上驚豔。

2、進階功能：主要測試此次 Sora 發布的新功能，也是本次 Sora 宣傳的重點。

多位從業者提及，Remix（重混）功能實現起來比較複雜，因此我們直接上難度測試了這一項，讓 Sora 将此前生成視頻中的兔子替換成小狗，結果出現了胡蘿蔔或者小狗起飛的狀況。

看來，實際操作遠沒有樣片中絲滑。不過，也有從業者表示，實測中存在一定偶然因素，最終效果和提示詞、場景、風格的關系比較大。

結語

經過一番對比，不難發現，盡管 Sora 的發布讓人震撼，但目前其實力還沒強到讓國内從業者恐慌的程度，大家對 Sora 的整體評價是，效果在預期之内。

生數科技投融資負責人樊家睿評價，相比今年 2 月份釋放的 demo，Sora 在模型效果方面，真實感上并沒有顯著變化。另外，結合多位網友實測反饋，Sora 在長時間處理複雜動作時還存在一定困難，模拟物理世界時可能會犯錯。

至于它發布的一系列新功能，從業者們見仁見智。

瀚皓科技 CEO 吳傑茜告訴「定焦 One」，和 Sora 類似的 Storyboard（故事闆）、Style presets（風格預設）功能在 FilmAction 中已經實現，Blend（混合）功能最先在國外的 AI 生成視頻工具 Luma 中亮相，主要原理是首尾幀生成，Re-cut（重新剪輯）功能底層依靠的是視頻續寫，目前國内工具也已經具備。

不過，AI 行業資深研究者江樹表示，此次 Sora 發布的一些功能屬于獨家，國内的産品基本沒有。盡管從技術上來說并不新鮮，比如可靈的運動筆刷、首尾幀功能也能做到視頻銜接和循環，但他覺得，Sora 的實現方式比較高明。

他以 Remix 舉例，用戶想改變視頻中的主體，國内基本是通過 " 替換關鍵幀 " 實現，但 Sora 的 Remix 不是，因爲在直播演示中，猛犸象在變成機器人時，沙子揚起的細節都能與主體保持一緻。

" 或許 Sora 目前透露出的最大優勢是處理細節的連貫性。" 江樹表示，他舉例，在直播演示中，機器人在沙漠中漫步，這一畫面從遠景到特寫，中間的轉換十分自然。Sora 的空間感也不錯，攝像機繞着一個物體進行 360 度旋轉，每個角度下的細節都非常準确，這說明 Sora 對三維場景有較爲完整的理解。

另一個加分項是産品體驗。江樹表示，Sora 這次發布的是一個從視頻生成到制作成品的端到端的完整産品，不像之前 ChatGPT 發布時隻有一個對話框。

"Sora 在基礎的文生視頻、圖生視頻以外，提供了一些提升視頻創作體驗的功能，說明 OpenAI 确實更關注産品體驗了，" 樊家睿覺得，Sora 新功能的實現路徑非常明确，對于他們而言，背後不是技術實現難度問題，主要是時間問題。

接下來，AI 生成視頻賽道又要卷起來了。