"Sora 最快今年内開放公測。"
在一場訪談中,OpenAI CTO Mira Murati 親自透露了這一消息。
短短 10 分鍾裏,Sora 技術細節、進展、規劃等當下最熱議的問題,都有了更進一步解答:
生成 20 秒的 720P 視頻隻需幾分鍾
計算資源遠超 ChatGPT 和 DALL · E
目前正在進行正在進行紅隊測試
未來版本有望支持視頻聲效
而且還向外界傳遞了一層重要信息:
OpenAI 在考慮發布這項技術時,抱有非常謹慎的态度。
" 我們希望電影界人士和世界各地的創作者都能參與進來,與我們共同探索如何進一步推動這些行業發展。"
加上前幾天,Sora 的三名研發主管—— Tim Brooks、William Peebles 和 Aditya Ramesh,也參與了一場 16 分鍾的播客訪談。
綜合兩場對話,關于 Sora 背後的秘密,也有了更多蛛絲馬迹可以探尋。
Sora 背後還有多少秘密?
關于 Sora,人們最關心也最期待的,可能就是什麽時候才能上手體驗了。
對此,Mira 表示 Sora 正在進行紅隊測試,以确保工具的安全性,并且不會産生偏見或其他有害問題。
對于具體的時間,Mira 也立下了 flag ——今年年内讓 Sora 與廣大用戶正式見面。
此外,兩場對話中談到的其他話題,可以分爲技術細節、項目規劃和未來展望三個部分。
揭開更多技術細節
技術方面,三人團隊表示,Sora 更像是介于 Dall · E 這類擴散模型和 GPT 之間。
訓練方式類似于 Dall · E,但架構上更像 GPT 系列。
訓練數據是不方便說滴(doge),大緻就是公開數據和 OpenAI 已獲授權的數據。
不過他們專門 cue 了一個點:通常圖像、視頻模型都是在一個固定尺寸上進行訓練,而 Sora 使用了不同時長、比例和清晰度的視頻。
具體方法之前的技術報告已經有了說明,就是用 "Patches" 來統一不同的視覺數據表現形式。
然後可以根據輸入視頻的大小,訓練模型認識不同數量的小塊。通過這種方式,模型能夠更加靈活學習各種數據,同時也能生成不同分辨率和尺寸的内容。
性能方面,Mira 和三人組的說法則略有不同:
三人組透露,有一次給 Sora 布置好任務後,出去買了杯咖啡,結果回來之後視頻還沒做好。
而 Mira 這邊的回答則是,Sora 生成 720P 分辨率、長達 20 秒的視頻内容,隻需要幾分鍾就能完成。
當然,具體消耗的時間,還要取決于任務複雜程度等多種因素,不能簡單一概而論。
不過 Mira 這邊表示,在正式發布之前将繼續努力優化算法,以降低所需的算力。
這些問題還需解決
而針對 Sora 存在的不足,他們的回答也很坦誠,表示其還存在無法完美處理手部的生成,渲染複雜的物理過程也存在一定難度等一系列問題。
除了這些 bug 型的缺陷之外,Sora 不能給視頻添加聲音也算一個美中不足之處,對此三人組給出了這樣的回應:
很難确定什麽時候能有這樣的功能,但這并非一個技術問題,而是目前有優先級更高的問題需要解決。
目前,Sora 還是更關注視頻本身的生成,研究重點是提高視頻的畫質和幀率。
所以,能夠加入聲音當然是更好的,但現在的當務之急,還是要把視頻能力先搞上來。
而 Mira 對此的回答則更像是給人們吃了一顆定心丸——未來版本有望支持視頻聲效,增強用戶體驗。
而除了這些産品本身的問題之外,爲 Sora 生成的視頻加入溯源信息,以防出現造假,也是 OpenAI 當下的一項重要任務。
同時,負責人和 Mira 都表示,團隊始終在收集來自各界的用戶反饋,三人組還舉例說有用戶希望能加入提示詞以外,更精細、直接的控制方式,團隊将此作爲了重點考慮的一個方向。
Sora,未來可期
最後,針對 Sora 的未來,負責人給出了很高的預期,并表示其将不僅僅在視頻創作方面發揮作用。
我們的世界充滿了視覺信息,其中有很多無法僅通過文本來傳達。
所以,雖然像 GPT 這樣的語言模型已經對世界有了深刻的理解,但如果它們無法像人類一樣 " 看 " 到視覺的世界,對世界的認識就會有所缺失。
因此,負責人對 Sora 及未來可能在其基礎上開發的其他 AI 模型充滿了期待——通過學習視覺信息的方式理解這個世界,在未來能夠更好地幫助人類。
對此有網友表示,這的确是個好消息,Sora 的意義不僅在于其本身,而且還會對其他 AI 産生影響。
另一邊,已經有人在期待 Runway 等前任王者對此的反應了。
不過,雖然團隊自己說 Sora 在未來能夠理解人類世界,但它到底能不能真的算世界模型,還存在不小的争議。
Sora 是世界模型嗎?
針對這個問題,正反雙方各執一詞,支持者的主要理由,是認爲從 Sora 生成的視頻中能看出其對物理世界的理解。
而反方則不認同 Sora 是世界模型,代表人物是圖靈獎得主、Meta 首席 AI 科學家 LeCun。
近期,LeCun 點贊了一篇澳大利亞學者的萬字長文,文章的核心觀點就是認爲 Sora 不是世界模型。
其中最核心的原因,是 Sora 并沒有物理引擎來運行前向時間模拟,而且訓練過程是端到端完成的,數據中并沒有物理規律信息。
即便是抛開訓練和生成過程,單從表現上看,Sora 的輸出也出現了違反重力、碰撞動力學等物理規律的情況。
△Sora 生成的 " 反重力玻璃杯 "
所以,作者認爲,将 Sora 稱爲世界模型是缺少充分依據的。
而人們比較關心的另一個問題,是 Sora 的訓練過程,是否使用了虛幻引擎(Unreal Engine)5。
不過作者也沒有給出确切結論,隻表示這隻是猜測,目前并沒有确切的證據表明 Sora 确實使用了 UE5 進行訓練。
而要想進一步揭開這些問題,或許要 OpenAI 再次自己出來公布,或者直接開源了。
One More Thing
雖然兩場訪談的确透露出了不少幹貨,但針對人們同樣廣爲關心的訓練數據來源問題,無論是三人團隊還是 Mira,說法都十分模糊——
Sora 的訓練過程中使用的是公開可用和已獲得授權的數據源。
但對于 YouTube、Instagram 和 Facebook 上的視頻是否被用作訓練數據,Mira 則是顧左右而言他:
我不知道,但如果這些數據是公開可用的,他們也許是(訓練)數據(的一部分)……我不确定
不過,這個說法的可信度先放下不談,即便真的如 Mira 所說,也有網友并不認賬:
OpenAI 好像覺得,隻要是公開的數據就可以随便用,呵呵
參考鏈接:
[ 1 ] https://www.youtube.com/watch?v=Srh1lut4Q2A(第 53 分鍾開始)
[ 2 ] https://www.youtube.com/watch?v=mAUpxN-EIgU
[ 3 ] https://artificialcognition.net/posts/video-generation-world-simulators/