新智元報道
編輯:Aeneas 好困
【新智元導讀】Sora 颠覆影視業,現在來看還遠。Bloomberg 記者親自試用後發現,Sora 生成的視頻還是翻車嚴重。而且,它的速度太太太太慢了!不過盡管如此,OpenAI 已經創死了一片初創公司。
雖然功能還未正式開放,但已經有外媒搶先上手體驗了!
結果就是—— Sora 翻車了!
最近,就在外界對 Sora 一片贊譽聲之時,一些冷靜的外媒,也開始發出了質疑的聲音。
Bloomberg 認爲:Sora 的确令人印象深刻,但它尚未準備好迎接未來的黃金時段。
原因就在于,Sora 現在對于身體部位的理解和物理學的複雜原理還無法完全掌握,并且,它處理請求的時間,實在是太長了!
用作者 Peebles 的話來說就是,Sora 的速度太慢了,你可以在等待視頻生成時去吃點零食。
Sora 翻車:鹦鹉猴子傻傻分不清,還巨慢
因爲 Sora 至今仍在紅隊測試中,還無法直接訪問。隻有被選中的藝術家、電影制作人和設計師才能獲得訪問系統的權限。
爲了一睹傳說中視頻王炸模型的真正實力,Bloomberg 的記者給 OpenAI 的研究者發去了這樣一段 prompt ——
「An overhead view of a parrot flying through a verdant Costa Rica jungle, then landing on a tree branch to eat a piece of fruit with a group of monkeys. Golden hour, 35mm film.」
大意是:一隻絢麗多彩的鹦鹉在哥斯達黎加的繁茂叢林中翺翔,最終停落在一枝樹幹上,與一群猴子分享一塊甘甜的水果。正值一天中最爲美妙的黃金時段,陽光透過樹冠,照在葉片和猴子潔白的毛發上,閃爍着金色的光芒。
Sora 生成的視頻是這樣的。
看上去還不錯,對不對?
然而如果仔細看,就會發現不少問題。
比如,鹦鹉的翅膀在飛過猴子時會發生扭曲。
prompt 裏隻要求一隻鹦鹉,Sora 卻生成了好幾隻。
此外,水果本身,以及上面變換莫測的爪子,都透出一股詭異的氣息 ……
最好笑的是,不僅其中一隻鹦鹉像是「挂了」似的脖子突然一歪,而且旁邊的猴子也秒變「不明生物」長出了一條鹦鹉尾巴。
對此,Sora 作者、OpenAI 科學家 Bill Peebles 是這樣解釋的:「的确,現在 Sora 在某個片段的不同階段會出現一些奇怪的動作。但是,Sora 能夠對這種複雜程度的場景進行建模,已經表明了它的視頻生成能力有了質的飛躍。」
Sora 什麽時候來?不急
具體哪一天能用上 Sora 呢,我們已知的是,至少目前還遙遙無期。
OpenAI 發言人 Natalie Summers 表示,OpenAI 沒有設定發布 Sora 的時間表,因爲希望能降低它和選舉相關的安全風險。
畢竟,AI Deepfake 已經多次有黑名單記錄,如果正值此時發布新的 AI 視頻工具,會讓 OpenAI 顯得很可疑。
且不管安全問題,Sora 在準備好進入黃金時段之前,仍然有很長的路要走。
OpenAI 自己也在技術報告中承認,Sora 對身體部位的雜散問題和對物理學的混合理解,仍有很大的進步空間。
當然,這個問題也不是隻有 Sora 才會遇到。它是 Runway、Pika 等 AI 視頻所共同面臨的問題。
Runway 生成的威爾史密斯吃面
而且,對于每個視頻,Sora 都需要消耗更多的算力,也需要等待更長的時間。
這個時間,可不是像 DALL-E 3 生成單個圖像那麽簡單。
Sora 處理每個請求的時間究竟是多長呢?
OpenAI 沒有明确回複,但 Peebles 表示,它「絕對不是即時的」,因爲「你可以在等待模型運行的時候,去吃點零食。」
這個過程可能非常漫長,因爲 Bloomberg 記者給了 OpenAI 四個 prompt,但他們隻給了兩個視頻,另外兩個實在是沒時間做了。
商标注冊信息,暴露 Sora 真實能力:難怪會狙擊 Gemini 1.5 Pro
就在最近,OpenAI 申請的 Sora 商标注冊描述也曝光了!
其中對 Sora 能力的介紹如下——
生成視頻和圖像;
基于自然語言提示、視覺提示、文本、語音創建、生成和編輯視頻和圖像;
視頻和圖像識别、處理、分析、理解和生成;
編輯、組織、修改、傳輸、上傳、下載和分享視頻、圖像和音視頻材料;
創建和生成文本到視頻以及文本到圖像的内容。
文件曝光後,讓 AI 研究者們更吃驚了!
所以,Sora 不僅可以生成視頻,還對視頻和圖像有理解能力?
谷歌的 Gemini 1.5 Pro 可以分析 1 小時的視頻,而 Sora 也具有類似能力,真的可以說是降維打擊了。
大家後知後覺地明白過來:Gemini 1.5 Pro 發布後不久,OpenAI 就拿出 Sora 來狙擊,看來還真是不無道理。
現在從 OpenAI 的模型推出計劃來看,Sora 目前應該是處于「評估和叠代開發」階段。
下一步将是分階段推出階段,包括私人測試版、測試用例和進一步的安全測試。
搓搓手,目測一年内應該能等到。
Sora 新演示來了!
與此同時,TikTok 上,OpenAI 的賬戶一夜爆火,幾天内漲粉 18 萬,收獲接近 100 萬贊。
而最近,Sora 的 TikTok 賬号上還在不斷放出新視頻。
比如這個一廚房的廚師和廚具的視頻,就是 Sora 根據 DALL-E 3 生成的圖像生成的視頻。
首先,DALL-E 3 生成了這樣一幅靜圖。
然後,Sora 根據這幅靜圖,生成了下面這段視頻。
在評論區,有人留言表示,想看看 Sora 創作出從來不存在的生物。
現在,Sora 也來交卷了。根據 Prompt「創造一個從未存在過的逼真動物,自然紀錄片風格」,它生成的視頻是這樣的——
來源:小互
乍一看怎麽像是帕魯們來到 3 次元。(手動狗頭)
OpenAI 創死所有初創公司,投資人大喜:還好我沒投
最近,所有 VC 的會上都在談 Sora。
OpenAI 的每一次技術突破,都拓展了資本圈對 AI 的想象空間。代價就是,大多創業公司的路,也被堵死了。
半個月前,Sam Altman 發布 AI 技術 Sora 制作的超逼真電影視頻時,所有人都意識到,無論是科技行業還是好萊塢,都敲響了警鍾。
外媒 The Information 發現,自己長期跟進的至少七家開發 AI 視頻生成器的公司,已經感到了恐懼。
同時感到恐懼的,還有給他們投了超過 5.5 億美元的投資人。
在 Sora 視頻在全網引發狂潮後,一位投資人私下表示:太幸運了,最近一家熱門 AI 視頻初創公司的一輪融資,還好自己錯過了。
而另一位資助了 AI 視頻初創公司的投資人表示,讓自己感到欣慰的是,如果真的發生了這種情況,或許這家初創公司強大的領導者,會使其成爲一個很好的收購目标。
Sora 的視頻亮點,就在于它在模拟現實世界的物理原理,盡管并不完美。
但是 AI 視頻如此神速的進步速度令人震驚,也讓人不得不相信:它很快就能制作出成熟的電影了。
風險資本家馬特 · 圖爾克在 X 上的一篇帖子中半開玩笑地說,或許到 2025 年,我們就可以讓 Sora 拍一集今晚就要播出的《毒枭》,要求布拉德 · 皮特、野獸先生和特拉維斯 · 凱爾斯主演。
全世界看向 Runway
Altman 扔出 Sora 這個王炸後,所有目光都集中在了 Runway 上。
此前,在 AI 視頻領域,Runway 可以算得上是領頭羊之一。
它的産品中添加了 AI 功能,甚至包括從頭開始創建視頻拆條的能力。
Runway 的 AI 視頻生成器,使用了 Runway 自己開發的潛在擴散模型,因此市場認爲這家小型初創公司有可能會迎頭趕上,也不無道理。
當然,現階段的 Runway 視頻,還無法和 Sora 對打。
因爲分辨率太低,它們會不由得讓人産生恐怖谷效應。
另一處鮮明的對比是,Runway 用戶一次最多隻能生成 16 秒的視頻,而 Sora 卻能做出一分鍾的長視頻。
Runway CEO Cristóbal Valenzuela 表示:視頻模型代表了創意産業未來的一些最重要的技術,所以思考這個問題的人越多越好 …… 還有很長的路要走。
其他競争對手的發展,也不容小觑,比如 Meta、Stable Diffusion、Pika 等,最近都推出了類似的 AI 視頻産品。
以 AI 生成圖像聞名的 AI 初創公司 Midjourney,現在也在準備自己的視頻産品。
大家共同的問題:如何盈利?
AI 視頻,會成爲搖錢樹嗎?
一個大問題是,AI 視頻是否會像 AI 生圖一樣發展呢?
或許它會是一項令人印象深刻的壯舉,但不一定是搖錢樹。
隻有 Midjourney 是例外,它獲得了超過 2 億美元的收入。
但其他的 AI 圖像生成器,甚至包括 OpenAI 的 DALL-E 3,其實并沒有賺多少錢。
Meta 雖然擁有蓬勃發展的廣告業務,但并沒有試圖這樣做。
Sora 的其他競争對手,Pika、Stable Diffusion 等等,也都沒有這樣做。
行業巨震,初創公司何去何從
對于 AI 視頻初創公司來說,好消息是,OpenAI 不太可能讓人免費使用 Sora。部分原因是,運營這項技術的成本很高。
這也就意味着,其他公司可以對自己的産品收費。
現在,它們還有機會!因爲 Sora 在幾個月内,可能都不會開放使用。
還有一個未解之謎,Sora 的訓練數據究竟是來自哪裏的呢?
有一些行業觀察人士(如 Meta 的 AI 領導者之一 Soumith Chintala)推測,其中就有遊戲引擎生成的合成數據。
遊戲引擎可以渲染視覺效果,以前這個功能主要用于開發視頻遊戲。
現在,如果 OpenAI 能使用合成數據的話,這可能就意味着 YouTube、好萊塢電影庫之類的專有數據集,對于開發 AI 視頻模型的重要性不如大多數研究者此前認爲的那麽重要。
這也就意味着:如果 AI 開發者能生成良好的合成數據,也就可以賺錢了。
往遠了看,如今 AI 已經把人類的文本都學完了,下一步就是視頻。如果視頻素材也學完了,該怎麽辦?
有人說,那時就可以給大模型裝上攝像頭,因爲人類世界每天需要學習的東西可太多了。
Sam Altman 張口要 7 萬億美元,或許是 OpenAI 真的研究出了了不得的東西,比如即将成形的 AGI。
算力、數據,手握這些資源的,就會得到第一個 AGI。