Sora 公布第 10 天,同行已經坐不住了。
2 月 16 日,中國大年初七,OpenAI 公布了全新的生成式人工智能模型 Sora:輸入自然語言指令,輸出至多 60 秒的視頻。
從文本到視頻的生成式 AI 模型并不新鮮,但 sora ——就像 ChatGPT ——一樣,因其斷崖式的質量提升,登時點燃了互聯網。高清的畫質,流暢的畫面,乍看之下頗爲自然的物理軌迹,和一年前近乎鬼畜的 " 威爾 · 史密斯吃意大利面 " 視頻看起來像隔了一個世紀,同行去年才發布的 AI 産品與之相比也黯然失色。
10 天很短,但在 AI 領域卻足以生變。
至少有兩家 AI 界 " 當紅炸子雞 " 站了出來:2 月 22 日,StabilityAI 正式開放 Stable Video 的公測,該産品背後的模型 Stable Video Diffusion 去年 11 月就已經發布。幾乎同時,另一家在文生圖領域頗有建樹的 Midjourney 也透露,可能會在下一次叠代時包含視頻功能。
昔日 " 炸子雞 " 站在陰影中,追不上 Sora 的同行有難了。
在接受了 Sora 演示視頻的直接沖擊之外,人們立刻開始做縱向和橫向的比較。
縱向比較,人們拿出了一年前 " 威爾 · 史密斯吃意大利面 " 的 AI 視頻。這位好萊塢明星臉部變形嚴重、面的形态千變萬化,分分鍾觸發恐怖谷效應,越看越詭異。
一年之後,Sora 已經可以做出一個女人在東京街頭漫步的視頻,不管是畫面質量、連續性和穩定性,還是女人的步态與神情,都已經幾乎可以以假亂真,讓人連連稱贊:文本到視頻的進步也太大了。
可惜的是,盡管無數網友在 OpenAI CEO 山姆 · 奧特曼(Sam Altman)的社交媒體賬号下求 Sora 版本的 " 威爾 · 史密斯吃意大利面 ",并沒能得償所願。倒是史密斯本人跑出來整了個活兒,真人拍攝," 僞造 " 了一個新版本。你别說,還真差點給人騙過去——真人都能拍視頻假裝是 AI 生成的了,倒也足見 Sora 視頻的高質量。
橫向對比,同行就有點尴尬了。OpenAI 把每一個 Sora 演示視頻的文本指令都公布了,雖然人們不能直接用 Sora,但是可以拿着指令去市面上已有的産品裏試,看看有什麽差别。
不試不要緊,一試吓一跳:看到 Sora 視頻的時候就覺得厲害,看了同行的表現更對 Sora 的威力有了新的認知。
同樣是女人在東京街頭漫步的指令,Runway 生成的視頻暫停看還都像那麽回事,連起來就隻能用 " 千變萬化 " 形容,女人的形象并不能随着時間的推移保持穩定。要知道 Sora 的演示視頻中還有機位的變化,從遠景到臉部特寫,女人的形态始終如一。Runway 生成的視頻更像是很多張圖片的動态融合。
StabilityAI ——就是那個開源了文生圖 Stable Diffusion 的公司——的 Stable Video 生成的畫面清晰度和美觀度都很不錯,但是女人的臉變形嚴重,看起來很像一個骷髅頭,詭異感拉滿。
Pika 則有些取巧,其畫面相對流暢,但比較模糊,且并非寫實風格。
此外,打鬧的猛犸象、行駛中的汽車、俯瞰的景觀、看蠟燭的小怪物等指令都被網友做了橫向對比,Sora 并非和同行打得有來有回,而是碾壓了同行。
一朝之間,文生視頻當紅 " 炸子雞 " 發現自己站在了 OpenAI 投下的陰影中。
從文本到視頻的 AI 工具并不是新鮮事物。在 2023 年,多個文本到視頻 AI 工具問世,Runway、PikaLabs(下稱 Pika)、StabilityAI 等初創公司在這個賽道都備受矚目,熱錢不斷,估值暴漲。
其中 Runway 成立于 2018 年,3 月開放 Gen-2 内測,6 月正式對外發布。此前有 Gen-1 圖像到視頻 AI 工具。Runway 同時還技術支持了多部電影。其中最大名鼎鼎的是奧斯卡獲獎影片《瞬息全宇宙》。
Runway 的 CEO 兼聯合創始人克裏斯托瓦爾 · 巴侖蘇埃拉(Crist ó bal Valenzuela)說:" 我們已經看到了圖像生成模型的爆發。我相信,2023 年将會是視頻之年。"
在 5 月時,Runway 已經完成了 1.41 億美元的 D 輪融資,投資方包括谷歌、英偉達等,估值暴漲三倍,達到 15 億美元,
Pika 去年 4 月剛剛成立,A 輪融資達 5500 萬美元,估值登時超過 2 億美元,11 月就發布了第一個文本到視頻産品 Pika1.0。到了 12 月時,其用戶已有超過 50 萬,每周生成近百萬視頻内容。
而 StabilityAI 則因其文本到圖像工具 Stable Diffusion 名聲在外,早在 2022 年獲得 1 億美元融資後,估值就已經超過了 10 億美元,成爲獨角獸企業。去年 11 月,Stable Video Diffusion 發布,注意後面還有一個 "Diffusion" 後綴,這是一個基于 Stable Diffusion 的生成式視頻基礎模型,需要用戶自己部署使用,還不算面向大衆發布的産品。
StabilityAI 官網
三家初創公司,2023 年三個重要生成式視頻産品 / 模型,突然就被 Sora 會心一擊。
在 OpenAI 興沖沖向世界展示 Sora 之後,Runway 的 CEO 巴侖蘇埃拉在社交平台 X 上發帖:" 遊戲開始(Game On)。" 而 StabilityAI 的 CEO 兼創始人莫斯塔克(Emad Mostaque)則将奧特曼稱作 " 巫師大人 "。
從演示視頻來看,Sora 的确有改變遊戲格局的威力,跟不上 Sora 的同行有難了。
參照 ChatGPT 發布之後,雖然 AI 浪潮讓投資人熱情高漲,AI 初創公司如雨後春筍般冒出來,新晉獨角獸一個接着一個。但這是一個冰火兩重天的故事,不少 AI 創業公司走上下坡路,或尋求收購,或大幅裁員,甚至就此壽終正寝。據智東西梳理,僅 2023 年 11 月到 2024 年 1 月,全球就有 AI 新聞初創企業 Artifact、AI 醫療公司 Olive 等 4 家 AI 初創企業宣布關停。
The Infoemation 稱,至少有 7 家開發生成式視頻的 AI 公司,共籌集了至少 5.5 億美元的資金。有投資人私下對 The Information 表示,之前剛剛錯過某熱門 AI 視頻初創企業的融資,看到 Sora 的視頻後 " 感到慶幸 "。
人工智能賽道熱度高,但門檻也高,厮殺之中刀光劍影,掉隊就可能掉入墳墓。
知名 AI 初創企業 Huggine Face 在一篇博文中,提到了文本到視頻的三大挑戰:算力挑戰,确保跨幀空間與實踐的一緻性伴随着高計算成本,使得大多數研究人員無法負擔這類模型的訓練費用;缺乏高質量數據集,用于文本到視頻生成的多模态數據集非常稀少,而且經常缺乏注釋;指令模糊性,如何以一種讓模型更容易學習的方式描述視頻不是一件容易的事。
即便是看似站穩了腳跟的 StabilityAI 都麻煩不斷。去年 6 月,福布斯發布一則長新聞,超過 30 位 StabilityAI 前員工和投資人細數創始人兼 CEO 莫斯塔克的 9 大罪證,包括:竊取 StableDiffusion 成果融資 10 億;隐瞞融資困難;誇大公司收入;拖欠員工工資;學曆和工作經曆造假。
抛開其他不談,矽谷 " 當紅炸子雞 " 卻又融資困難、公司收入被誇大的問題,着實令人意外。知情人士稱,StabilityAI 每個月的開銷大概是 800 萬美元,而莫斯塔克卻曾自爆公司 8 月的營收大概在 120 萬美元,有機會超過 300 萬美元。莫斯塔克很快就删除了該帖,但從這個數字不難聞到燒錢的味道。
11 月,也就是其發布 Stable Video Diffusion 模型的同月、公司完成 1 億美元融資的一年後,StabilitAI 傳出多位高級管理人員辭職、公司财務狀況脆弱的消息,并一度傳聞考慮出售,這一消息随後被莫斯塔克否認。
入不敷出、人才流失,StabilityAI 的危機暴露了光鮮的熱門創企的軟肋。
巨頭的加入也會讓戰事更加激烈。在 AI 視頻的賽道,巨頭早有布局。2022 年 10 月,Meta 和谷歌相繼發力。Meta 先發布了 Make-A-Video 模型,僅一周後,谷歌 CEO 桑德爾 · 皮查伊(Sundar Pichai)親自安利他們在這一領域的兩個最新成果,Imagen Video 和 Phenaki,分别強調視頻品質和長度。
但不管是 Meta 還是谷歌,目前都尚未向公衆開放其文本到視頻 AI 工具。谷歌官方認爲用于訓練 AI 視頻模型的數據仍包含有問題的内容,可能會導緻 Imagen Video 産生圖形暴力或色情剪輯,造成不良影響。巨頭的保守操作大家也都熟悉了,在自然語言聊天機器人的賽道,谷歌也是早早就手握模型但未向 C 端推出産品,原因也是安全問題。但 ChatGPT 與微軟的聯手讓巨頭走出保守,Sora 未嘗不能做同樣的事。
已經有巨頭有新動作。在 Sora 公布的一周前,字節宣布人事變動,原抖音集團 CEO 張楠宣布辭去集團 CEO 一職,未來把精力聚焦在剪映的發展上。據時代周報援引接近剪映的人士,張楠親自帶隊尋求在 AI 輔助創作上突破,并即将推出一個 AI 生成視頻的産品。
面對新開的 " 遊戲 ",Sora 的同行隻能全力向前。
就在 Sora 公布的幾天之後,2 月 22 日,StabilityAI 正式開放了 Stable Video 的公測,從模型走向人人可以方便上手的産品。雖然視頻長度還是比較短,隻有 7 秒,但視頻質量比較高。莫斯塔克在社交平台上宣傳新産品時顯得很謙虛,表示開放的原因是:" 我們想要創造類似 Sora 的大型開放的 Stable Video2,但需要更多的數據和計算。"
此外,在文生圖領域有超高口碑的 Midjourney 也跑步入場,創始人大衛 · 霍爾茲(David Holz)在 Office Hours 中透露,下一個版本,也就是 Midjourney V7" 可能包含視頻功能 "。
OpenAI 現階段還在對 Sora 進行評估,距離 Sora 正式對外公開可能還有幾個月的時間。好消息是,同行還有時間應變。壞消息是,留給同行的時間不多了。
參考資料:
1、智東西:《AI 創業冰火兩重天:Sora 降世資本狂歡,數家創企倒閉關門》
2、連線 Insight:《Sora 來了,字節發力:張楠的重任和挑戰》
3、新火種:《被迫賣身、CEO 下台、高管出走,又一家 AI 獨角獸出事》
4、機器之心:《圖像生成卷膩了,谷歌全面轉向文字→視頻生成,兩大利器同時挑戰分辨率和長度》
5、财聯社:《AI 圈子不太平 知名開源模型開發商 Stability AI 被曝 " 尋求賣身 "》