白交 衡宇 發自 凹非寺
量子位 | 公衆号 QbitAI
好消息,好消息,真 · Sora 視頻上新了!走過路過不要錯過!
(不用苦苦等候,或撐大眼睛費勁吧啦鑒别真假 Sora 産品了)。
就在過去短短幾個小時裏,包括 Bill Peebles、Tim Brooks 兩位負責人在内的工作人員唰唰唰 N 連發。
(好了好了,知道你們是好朋友)
不僅有前所未的多視角、新功能展現,最重要的是,各個視頻的呈現效果依然處于令人驚歎的段位。
比如 Go Pro 視角下潛水去探索沉船。
比如下面這段視頻,效果跟此前寫實、逼真的畫風有點不一樣,而且 Sora 産出的是同一片段的不同視角畫面。
它的提示詞是:精心制作的立體模型,描繪了日本江戶時代的甯靜場景。傳統的木結構建築。一個孤獨的武士,穿着複雜的盔甲,緩慢地穿過城鎮。
另外比較驚豔的還有一頭大眼睛、長睫毛、口噴冷氣的小白龍,就是下面這位:
有人嘗試用同樣的 prompt 在 DALLE · 3 上畫畫,得到的結果是這樣的:
就,還挺神似!
但 Sora 小白龍的效果讓某種聲音越來越大,那就是:
好家夥,我一眼就看出這玩意兒有虛幻引擎的影子!
不過,這波視頻還是惹得網友們 wow wow 的,不停驚歎,怎麽 Sora 每波視頻效果都越來越好了?
我的天爺啊,等 Sora 公測開放等得大家一天隻能吃下三頓飯了!
有的網友超級激動,已經在知名新産品挖掘平台 ProductHunt 上給 Sora 的 API 站好了坑。
萬事俱備,隻欠東風。
官方新視頻再流出
首先來看看 Sora 這波上新,此次最驚豔的是由玻璃制成的烏龜,日落時分在沙灘上爬行。
不過也有細心的網友發現:" 我隻看到了三條腿 …"" 前面兩條腿更像烏龜的腳蹼 "
而在 Midjourney 上使用相同的提示,效果是這樣的。
另外,多個視角展現也成爲了此次上新的亮點。
比如在夏威夷玩跳傘。
提示詞:a man BASE jumping over tropical hawaii waters. His pet macaw flies alongside him(一名男子在夏威夷熱帶海域進行低空跳傘,他的寵物金剛鹦鹉與他并肩飛翔)
甚至還有 F1 賽車手的視角。
此外,Sora 還暴露了一些類似剪輯的新功能——無縫銜接。
此前看到,它能通過文本、圖像或視頻輸入對模型進行提示。
如今發現,它還可以在兩個輸入視頻之間逐漸進行插值。兩個毫不相幹的 Sora 視頻,結果無縫過渡成了新視頻。
咳咳,不過水下爲啥會有蝴蝶??
不過由于悉數都是 Sora 團隊成員發布的視頻,有網友覺得,除非有個非 OpenAI 工作人員才測試,不然 Sora 就是個 vaporware(霧件)
這些案例中,也有被認爲翻車的 ……
提示詞:a dark neon rainforest aglow with fantastical fauna and animals(黑暗的霓虹雨林,閃爍着奇幻的動物和動物的光芒)
網友表示:爲什麽會是矢量動畫的風格,提示中根本并沒有這樣的提示。
這是我見過 Sora 最糟糕的例子
" 我不是專家,但這絕對用了 UE5"
與此同時,關于 Sora 所生成視頻的讨論重心,逐漸從 " 這不符合物理世界的規律 ",轉移到更深層次——
關于其背後訓練數據來源的讨論。
現在的民間主流說法(doge)是:
這絕對用了 3D 引擎 /UE5 來訓練的!
英偉達科學家、大家夥熟悉的老盆友 Jim Fan 老師就在首日猜測過,稱 Sora 雖然沒有明确表示調用了 UE5,但極有可能把用 UE5 生成的文本、視頻當作合成數據,添加到自個兒的訓練集中。
也有一位前谷歌工作人員對 Sora 這次的新視頻進行了在線銳評:
Sora 這效果,我真的認爲需要 3D 引擎 + 生成式 AI 結合,才能實現這樣的一緻性和視頻質量。
事實證明,就是得要更多的數據和計算 ……
倒不是 Jim Fan 等人的一家之言。早在第一波 Sora 視頻亮相時,這種聲音就第一時間起來了,聲量還很不小。
再多舉個例子。
一位從事數據科學和 ML 的推友羅列出了自己站隊這種觀點的 " 證據 "。
他亮出的牌是漫步櫻花街頭的那段視頻。
然後配文道:" 視頻中移動的人似乎與 UE5 演示中的人類的移動方式非常相似。現實中的人走路逛街,并不會老用一個恒定的速度。"
也有人質疑這種說法,畢竟 Youtube 等互聯網上擁有數十億(可能還不止)小時的視頻片段,幹啥要用虛幻引擎來增加工作量呢?
于是就有人把 " 汽車行駛 " 的視頻片段丢到上面這位推友小哥面前,說這看起來也不像是用了 3D 引擎搞的呀!
小哥友好地嘚吧嘚嘚吧嘚,開始了自己的分析:
" 我不是專家 …… 但感覺 UE 讓汽車行駛掀起的塵土,隻在後輪部分有。但其實現實情況中,前輪部分也會揚起塵沙。"
當然也有不少人贊同他,附和道:
雖然不一定用的是 UE5 吧 …… 但事實确實是,用數字孿生模拟可能效果和效率都更好。
而且這樣還能用較少的 IRL 數據進行更高質量的數據采樣。
以及還有人把自己理解中 Sora 的 pipeline 都列到推特上了。
這種讨論大規模流傳開後,不少人對 Sora 可能是 "UE5+AIGC" 産生的效果嗤之以鼻。
" 哼!我話放在這兒,合成數據是視覺機器學習的作弊代碼!!"
同時有人從這種讨論中看到了不久之後的一種可能性。
即未來的生成不是通過模拟真實物理來呈現,而是通過訓練模拟物理模拟(即現實世界)的模型來呈現。
嗯 …… 咱就是說,誰能一口否定沒有這種可能呢?
One More Thing
Sora 上新視頻後,有網友急沖沖去問了另一家 AI 視頻生成頭部玩家 Runway 的首席執行官。
" 最近幾個月,有發布新版本的打算嗎?就是質量接近 Sora 的那種~"
Runway CEO 冷冷回了一個詞兒:
better