追不上Sora的同行有難了

Sora 公布第 10 天，同行已經坐不住了。

2 月 16 日，中國大年初七，OpenAI 公布了全新的生成式人工智能模型 Sora：輸入自然語言指令，輸出至多 60 秒的視頻。

從文本到視頻的生成式 AI 模型并不新鮮，但 sora ——就像 ChatGPT ——一樣，因其斷崖式的質量提升，登時點燃了互聯網。高清的畫質，流暢的畫面，乍看之下頗爲自然的物理軌迹，和一年前近乎鬼畜的 " 威爾 · 史密斯吃意大利面 " 視頻看起來像隔了一個世紀，同行去年才發布的 AI 産品與之相比也黯然失色。

10 天很短，但在 AI 領域卻足以生變。

至少有兩家 AI 界 " 當紅炸子雞 " 站了出來：2 月 22 日，StabilityAI 正式開放 Stable Video 的公測，該産品背後的模型 Stable Video Diffusion 去年 11 月就已經發布。幾乎同時，另一家在文生圖領域頗有建樹的 Midjourney 也透露，可能會在下一次叠代時包含視頻功能。

昔日 " 炸子雞 " 站在陰影中，追不上 Sora 的同行有難了。

在接受了 Sora 演示視頻的直接沖擊之外，人們立刻開始做縱向和橫向的比較。

縱向比較，人們拿出了一年前 " 威爾 · 史密斯吃意大利面 " 的 AI 視頻。這位好萊塢明星臉部變形嚴重、面的形态千變萬化，分分鍾觸發恐怖谷效應，越看越詭異。

一年之後，Sora 已經可以做出一個女人在東京街頭漫步的視頻，不管是畫面質量、連續性和穩定性，還是女人的步态與神情，都已經幾乎可以以假亂真，讓人連連稱贊：文本到視頻的進步也太大了。

可惜的是，盡管無數網友在 OpenAI CEO 山姆 · 奧特曼（Sam Altman）的社交媒體賬号下求 Sora 版本的 " 威爾 · 史密斯吃意大利面 "，并沒能得償所願。倒是史密斯本人跑出來整了個活兒，真人拍攝，" 僞造 " 了一個新版本。你别說，還真差點給人騙過去——真人都能拍視頻假裝是 AI 生成的了，倒也足見 Sora 視頻的高質量。

橫向對比，同行就有點尴尬了。OpenAI 把每一個 Sora 演示視頻的文本指令都公布了，雖然人們不能直接用 Sora，但是可以拿着指令去市面上已有的産品裏試，看看有什麽差别。

不試不要緊，一試吓一跳：看到 Sora 視頻的時候就覺得厲害，看了同行的表現更對 Sora 的威力有了新的認知。

同樣是女人在東京街頭漫步的指令，Runway 生成的視頻暫停看還都像那麽回事，連起來就隻能用 " 千變萬化 " 形容，女人的形象并不能随着時間的推移保持穩定。要知道 Sora 的演示視頻中還有機位的變化，從遠景到臉部特寫，女人的形态始終如一。Runway 生成的視頻更像是很多張圖片的動态融合。

StabilityAI ——就是那個開源了文生圖 Stable Diffusion 的公司——的 Stable Video 生成的畫面清晰度和美觀度都很不錯，但是女人的臉變形嚴重，看起來很像一個骷髅頭，詭異感拉滿。

Pika 則有些取巧，其畫面相對流暢，但比較模糊，且并非寫實風格。

此外，打鬧的猛犸象、行駛中的汽車、俯瞰的景觀、看蠟燭的小怪物等指令都被網友做了橫向對比，Sora 并非和同行打得有來有回，而是碾壓了同行。

一朝之間，文生視頻當紅 " 炸子雞 " 發現自己站在了 OpenAI 投下的陰影中。

從文本到視頻的 AI 工具并不是新鮮事物。在 2023 年，多個文本到視頻 AI 工具問世，Runway、PikaLabs（下稱 Pika）、StabilityAI 等初創公司在這個賽道都備受矚目，熱錢不斷，估值暴漲。

其中 Runway 成立于 2018 年，3 月開放 Gen-2 内測，6 月正式對外發布。此前有 Gen-1 圖像到視頻 AI 工具。Runway 同時還技術支持了多部電影。其中最大名鼎鼎的是奧斯卡獲獎影片《瞬息全宇宙》。

Runway 的 CEO 兼聯合創始人克裏斯托瓦爾 · 巴侖蘇埃拉（Crist ó bal Valenzuela）說：" 我們已經看到了圖像生成模型的爆發。我相信，2023 年将會是視頻之年。"

在 5 月時，Runway 已經完成了 1.41 億美元的 D 輪融資，投資方包括谷歌、英偉達等，估值暴漲三倍，達到 15 億美元，

Pika 去年 4 月剛剛成立，A 輪融資達 5500 萬美元，估值登時超過 2 億美元，11 月就發布了第一個文本到視頻産品 Pika1.0。到了 12 月時，其用戶已有超過 50 萬，每周生成近百萬視頻内容。

而 StabilityAI 則因其文本到圖像工具 Stable Diffusion 名聲在外，早在 2022 年獲得 1 億美元融資後，估值就已經超過了 10 億美元，成爲獨角獸企業。去年 11 月，Stable Video Diffusion 發布，注意後面還有一個 "Diffusion" 後綴，這是一個基于 Stable Diffusion 的生成式視頻基礎模型，需要用戶自己部署使用，還不算面向大衆發布的産品。

StabilityAI 官網

三家初創公司，2023 年三個重要生成式視頻産品 / 模型，突然就被 Sora 會心一擊。

在 OpenAI 興沖沖向世界展示 Sora 之後，Runway 的 CEO 巴侖蘇埃拉在社交平台 X 上發帖：" 遊戲開始（Game On）。" 而 StabilityAI 的 CEO 兼創始人莫斯塔克（Emad Mostaque）則将奧特曼稱作 " 巫師大人 "。

從演示視頻來看，Sora 的确有改變遊戲格局的威力，跟不上 Sora 的同行有難了。

參照 ChatGPT 發布之後，雖然 AI 浪潮讓投資人熱情高漲，AI 初創公司如雨後春筍般冒出來，新晉獨角獸一個接着一個。但這是一個冰火兩重天的故事，不少 AI 創業公司走上下坡路，或尋求收購，或大幅裁員，甚至就此壽終正寝。據智東西梳理，僅 2023 年 11 月到 2024 年 1 月，全球就有 AI 新聞初創企業 Artifact、AI 醫療公司 Olive 等 4 家 AI 初創企業宣布關停。

The Infoemation 稱，至少有 7 家開發生成式視頻的 AI 公司，共籌集了至少 5.5 億美元的資金。有投資人私下對 The Information 表示，之前剛剛錯過某熱門 AI 視頻初創企業的融資，看到 Sora 的視頻後 " 感到慶幸 "。

人工智能賽道熱度高，但門檻也高，厮殺之中刀光劍影，掉隊就可能掉入墳墓。

知名 AI 初創企業 Huggine Face 在一篇博文中，提到了文本到視頻的三大挑戰：算力挑戰，确保跨幀空間與實踐的一緻性伴随着高計算成本，使得大多數研究人員無法負擔這類模型的訓練費用；缺乏高質量數據集，用于文本到視頻生成的多模态數據集非常稀少，而且經常缺乏注釋；指令模糊性，如何以一種讓模型更容易學習的方式描述視頻不是一件容易的事。

即便是看似站穩了腳跟的 StabilityAI 都麻煩不斷。去年 6 月，福布斯發布一則長新聞，超過 30 位 StabilityAI 前員工和投資人細數創始人兼 CEO 莫斯塔克的 9 大罪證，包括：竊取 StableDiffusion 成果融資 10 億；隐瞞融資困難；誇大公司收入；拖欠員工工資；學曆和工作經曆造假。

抛開其他不談，矽谷 " 當紅炸子雞 " 卻又融資困難、公司收入被誇大的問題，着實令人意外。知情人士稱，StabilityAI 每個月的開銷大概是 800 萬美元，而莫斯塔克卻曾自爆公司 8 月的營收大概在 120 萬美元，有機會超過 300 萬美元。莫斯塔克很快就删除了該帖，但從這個數字不難聞到燒錢的味道。

11 月，也就是其發布 Stable Video Diffusion 模型的同月、公司完成 1 億美元融資的一年後，StabilitAI 傳出多位高級管理人員辭職、公司财務狀況脆弱的消息，并一度傳聞考慮出售，這一消息随後被莫斯塔克否認。

入不敷出、人才流失，StabilityAI 的危機暴露了光鮮的熱門創企的軟肋。

巨頭的加入也會讓戰事更加激烈。在 AI 視頻的賽道，巨頭早有布局。2022 年 10 月，Meta 和谷歌相繼發力。Meta 先發布了 Make-A-Video 模型，僅一周後，谷歌 CEO 桑德爾 · 皮查伊（Sundar Pichai）親自安利他們在這一領域的兩個最新成果，Imagen Video 和 Phenaki，分别強調視頻品質和長度。

但不管是 Meta 還是谷歌，目前都尚未向公衆開放其文本到視頻 AI 工具。谷歌官方認爲用于訓練 AI 視頻模型的數據仍包含有問題的内容，可能會導緻 Imagen Video 産生圖形暴力或色情剪輯，造成不良影響。巨頭的保守操作大家也都熟悉了，在自然語言聊天機器人的賽道，谷歌也是早早就手握模型但未向 C 端推出産品，原因也是安全問題。但 ChatGPT 與微軟的聯手讓巨頭走出保守，Sora 未嘗不能做同樣的事。

已經有巨頭有新動作。在 Sora 公布的一周前，字節宣布人事變動，原抖音集團 CEO 張楠宣布辭去集團 CEO 一職，未來把精力聚焦在剪映的發展上。據時代周報援引接近剪映的人士，張楠親自帶隊尋求在 AI 輔助創作上突破，并即将推出一個 AI 生成視頻的産品。

面對新開的 " 遊戲 "，Sora 的同行隻能全力向前。

就在 Sora 公布的幾天之後，2 月 22 日，StabilityAI 正式開放了 Stable Video 的公測，從模型走向人人可以方便上手的産品。雖然視頻長度還是比較短，隻有 7 秒，但視頻質量比較高。莫斯塔克在社交平台上宣傳新産品時顯得很謙虛，表示開放的原因是：" 我們想要創造類似 Sora 的大型開放的 Stable Video2，但需要更多的數據和計算。"

此外，在文生圖領域有超高口碑的 Midjourney 也跑步入場，創始人大衛 · 霍爾茲（David Holz）在 Office Hours 中透露，下一個版本，也就是 Midjourney V7" 可能包含視頻功能 "。

OpenAI 現階段還在對 Sora 進行評估，距離 Sora 正式對外公開可能還有幾個月的時間。好消息是，同行還有時間應變。壞消息是，留給同行的時間不多了。

參考資料：

1、智東西：《AI 創業冰火兩重天：Sora 降世資本狂歡，數家創企倒閉關門》

2、連線 Insight：《Sora 來了，字節發力：張楠的重任和挑戰》

3、新火種：《被迫賣身、CEO 下台、高管出走，又一家 AI 獨角獸出事》

4、機器之心：《圖像生成卷膩了，谷歌全面轉向文字→視頻生成，兩大利器同時挑戰分辨率和長度》

5、财聯社：《AI 圈子不太平知名開源模型開發商 Stability AI 被曝 " 尋求賣身 "》