當瓦特蒸汽機的齒輪轉動了第一圈;當喬布斯從牛皮紙袋掏出 Macbook;當 ChatGPT 用流暢優美的語言回答第一個問題。科技,曾經、正在、也将改變未來。
【Future】是 36 氪科技報道團隊主理的一檔專欄,我們将圍繞科技産業的前沿突破,記錄那些實驗室裏令人振奮的新技術,是如何穿越 PMF(Product Market Fit 産品與市場結合)的驚險周期,進而影響更廣闊的商業社會。
在這裏,看見【Future】。
作者|武靜靜
編輯|蘇建勳
兩周前,Sora 現世,在 AI 領域又投下一顆重磅炸彈。演示視頻中可以看到,Sora 已經能生成含有多個角色進行特定運動的複雜場景。
Sora 生成的視頻,圖源:OpenAI
OpenAI 在技術報告中稱:"Sora 這類視頻生成模型是世界的模拟器。Sora 是能夠理解和模拟現實世界模型的基礎,我們相信這種能力将成爲實現 AGI 的重要裏程碑。"
也有人并不認同這種描述,Meta 首席科學家 Yann LeCun(楊立昆)認爲:" 僅根據文字提示生成逼真的視頻,并不代表模型理解了物理世界。"
Sora 爲何會形成如此驚豔的效果?我們通過研究技術報告、訪談多位行業人士後發現,Sora 背後雖然并非采用了多石破天驚的技術路線,但在視頻模型技術路線尚未收斂的當前情況下,Sora 達成的出色效果明顯降低了其他市場參與者在技術路線上的試錯成本,也在視頻生成的設計邏輯等産品思路上提供了可借鑒的理念。
Sora 會給行業帶來怎樣的劇變?接下來視頻模型行業又将如何把握這次的挑戰和機會?
"Sora 給這個方向上的同行們指明了一條路,即 Transformer 也可以在視頻模态下表現出很好的湧現能力。" 線性資本投資副總裁白則人向 36 氪表示。
他認爲,這會推動其他視頻大模型公司加速研發節奏,迎來新的機會,開源技術在接下來也會取得進一步發展。
對于更多人而言,Sora 解鎖了對多模态視頻大模型的新想象。OpenAI 再次憑一己之力把多模态視頻大模型推向了新的高度。在此之前,視頻領域,受制于技術難度和數據集等難題,一直未出現類似 ChatGPT、Midjourney 這樣的現象級産品。
1. Sora 驚豔效果帶來的啓示:圖片 + 視頻混合訓練
從産品細節來看,與其他同類模型相比,Sora 生成的視頻在時長、内容一緻性、連貫性和分辨率方面表現出明顯的優勢。
從目前 OpenAI 發布的 demo 效果中可以看到,在生成的一分鍾視頻内,可以明顯感覺到視頻中的場景伴随鏡頭運動進行變化,并且保持内容一緻性。
這是此前我們在使用 Pika 和 Runway 等視頻模型産品時很難體驗到的。比如,在《實測 Pika1.0,砸了 3.9 億元,真實效果不及宣傳|産品觀察》中,我們發現 Pika 把靜态的圖片轉化成一段動态視頻之後,視頻中的人臉出現變形,且比照片顯示更虛一點。
以這張模特圖片爲例,上傳照片給 Pika,圖片來自 IC photo
Pika 基于上述圖片生成的動态視頻
視頻生成能力相比文生圖,技術難度更複雜。AI 生成視頻工具不僅需要掌握基礎的自然語言理解能力,還需要在畫面流暢度、風格準确性、穩定性、一緻性、動作連貫性等方面有較好的表現。
Sora 做到了其他産品都沒實現的一分鍾時長。而從技術實現來看,要想讓一個模型生成的視頻從 4 秒延長到 10 秒,背後涉及的技術問題就極爲複雜。
其中,有一個重要的考量維度是視頻生成邏輯問題:是 image-to-video(圖像到視頻)路線,即先生成圖像,再由圖像生成視頻;還是 video-native(視頻原聲)的設計概念,即把圖像和視頻進行統一編碼,混合訓練。
" 如果選擇 image-to-video(圖像到視頻)路線,用一幀一幀的圖像去組成視頻,比如先生成一個由 32 幀圖像構成的一個 4s 視頻,把這個視頻最後一幀畫面拿出來,作爲下一個 4s 視頻的起點。這種方式理論上可以,但是過程中誤差會累計,且視頻生成涉及到内容連續性問題,讓問題變得更複雜。所以,最終第 10s 的畫面會和初始視頻相差甚遠。" 智象未來 CTO 姚霆表示。
Pika 曾在一次采訪中提到這種路線面臨的挑戰," 當視頻很長時,确保每一幀都協調一緻是個相當複雜的問題。在訓練時,處理視頻數據時要處理多張圖片,如何将 100 幀圖片傳輸到 GPU 上就是其中一個挑戰。而在推理時,由于涉及到生成大量幀,推理速度相對于單張圖片會更慢,計算成本也會增加。"
Sora 采用了混合訓練的方式。在技術報告中,OpenAI 提到,采用将圖片和視頻混合訓練的方式,用 patch(視覺補丁)作爲視頻數據,來訓練視頻模型。
姚霆認爲,OpenAI 采用的這種 video-native 的設計理念,把圖像作爲單幀視頻很自然地加入模型的訓練,所以,Sora 模型可以無縫切換爲圖像生成模型,這會促使技術人員去重新思考視頻生成的設計邏輯。
他提到:" 這也給了我們啓發,從 Sora 效果中,我們看到,圖像和視頻的混合訓練很重要,如果缺失了這一點,很難達到這樣的高度。當然,這也證明 OpenAI 把技術架構之間耦合得很好。"
此外,對于 Sora 生成的視頻中展示出的流暢運鏡畫面,也有人猜測,結合團隊有專職數字内容的工作者來看,Sora 在訓練數據裏包含了 3D 渲染數據,讓它相比其他産品更擅長生成運鏡畫面,模拟出 3D 視覺效果。
這些都是 Sora 驚豔的效果背後的一些産品設計細節。
驚豔之餘,另一個值得思考的問題是,雖然 OpenAI 把 Sora 稱爲世界的模拟器,但從目前的效果也可以看到其中的局限性。
"Sora 未必真正的理解這個世界。"UCL 計算機系教授汪軍告訴 36 氪。
他舉了一個例子,在現實的物理環境中,當一個玻璃瓶打碎時,會和其他物體的碰撞,這要符合物理規律現象。" 如果 Sora 通過預測下一個 token 來生成視頻,如何建立一個真正符合邏輯和物理規律的世界模型就會成爲一個挑戰,就像語言模型一樣,有些模型可能隻關注于生成人類可以理解的語言,但這并不意味着它們真正理解了物理邏輯。"
2.Sora 的成功,是 OpenAI 暴力美學的再次勝利
OpenAI 官網信息可以看到,Sora 團隊成立時間還未超過 1 年,核心團隊共有 15 人,成員中甚至還有 00 後。
Sora 爲何能在這麽短的時間内做到如此好的效果到現在都還是一團迷霧。這次 Sora 技術博客中,OpenAI 也提到,不會分享技術細節,隻提供了模型設計理念和 demo 視頻,依照 OpenAI 越來越不 Open 的路子來看,未來我們也無法得知更多技術有效信息。
很多人都在探讨 Sora 的技術路線。目前,主流的視頻模型框架有兩種:Diffusion model(擴散模型)和 Auto-regressive model(自回歸模型),後者就是此前被很多人熟知的 GPT 模型。一直以來,視頻生成模型的主流模型框架一直都未像語言模型一樣收斂成一個确定性路線。
圖片由智象未來 CTO 姚霆制作
智象未來 CTO 姚霆告訴 36 氪,兩大路線的區别在于:"Diffusion model(擴散模型)基于擴散模型加噪去噪的機制可以更好地結構化,并生成較高質量畫質的視頻内容,而 Auto-regressive model(自回歸模型)更适合長上下文語境理解,天然适配多模态對話的生成方式。"
在具體的技術實現中,兩大路線之下也會繼續衍生出不同的細分架構。比如,Diffusion 模型路線之下,Gen-2、Pika 就采用了 U-net(卷積神經網絡)架構,也有公司把 U-net 架構換成 Transformer 架構,采用 DiT(Diffusion Transformer)架構。
Sora 被認爲就是采用了 DiT 的架構。這是目前市場的廣泛猜測,主要依據是 2023 年 Sora 研發負責人之一 Bill Peebles 與紐約大學助理教授謝賽甯曾發表的 DiT(擴散 Transformer)論文《Scalable Diffusion Models with Transformers》。
據 36 氪了解,國内的多模态視頻模型創業公司愛詩科技在創立之初就選擇了這條路線,而另一家創業公司 HiDream 智象未來也采用了 DiT 架構。 姚霆稱:" 其實我們在圖像生成模型上已經自研驗證了一套成熟的 DiT 架構,相較于 U-Net,DiT 架構靈活度更高,且能增強圖像、視頻的生成質量。"
所以單從技術路線來看,Sora 選擇的技術架構并不是多稀缺的選擇,隻是早前各家視頻模型公司考量不同,選擇不同。
" 技術路線 Sora 展示的信息中并沒有很特别的東西。OpenAI 肯定有自己獨特的訓練方法。" 汪軍告訴 36 氪。
他提到," 通過大規模的訓練,使得能夠利用海量的數據和計算資源,将工程方面做得非常出色,在我看來,算力和數據尚未到上限,還有進一步發展的空間,可以進一步挖掘數據潛力,在文本、圖像甚至視頻上進行更深入地處理,将模型能力提升至新的高度。"
所以,雖然沒有進行底層技術路線創新,但 OpenAI 的強大之處在于,在這個路線上不斷踐行大算力、大數據的暴力美學——通過大力出奇迹的方式,依靠細緻的工程化創新,推進模型湧現能力的持續優化。
OpenAI 在報告中提到:我們的結果表明,擴展視頻生成模型是構建物理世界通用模拟器的一條有前途的途徑—— " 在相同的樣本下,随着訓練計算規模的增加,視頻質量顯著提高,也會表現出許多有趣的新興功能,使 Sora 能夠模拟現實世界中人、動物和環境的某些方面。"
此外,OpenAI 也在論文中提到 Sora 也結合了 GPT 等産品能力。
姚霆認爲,Sora 強大建立在過去對 DALL-E 和 GPT 模型的研究之上。"Sora 是 OpenAI 集成自己語言(GPT)、視覺理解(GPT4-V)和圖像生成(DALL-E)多種能力的一個出口,它使用 DALL · E 3 的重述提示詞技術,爲視覺訓練數據生成高度描述性的标注,因此能夠更忠實地遵循用戶的文本指令。"
目前,關于 Sora 參數量、訓練數據的各種猜測甚嚣塵上,出入也很大,有人猜 Sora 的模型參數規模是百億級别,訓練成本是千萬美元級别,也有人覺得參數規模可能隻有 3B,但數據标注成本不低,更有人認爲 Sora 的推理算力需求是 GPT-4 的 1000 倍以上。
出門問問創始人李志飛稱,Sora 用的訓練數據可能是數百萬小時:" 一般視頻的分辨率超過 128*128,最終的 Tokens 量應該至少是十萬億級别。如果 Sora 用了 500 萬小時視頻數據訓練,那它使用的數據量大約相當于 Youtube 上 9 天的數據産出量。"
參數和數據量隻是模型的其中一個方面,相比文本模型而言,視頻模型的數據複雜度更高,維度更多,優質數據來源更少,數據标注難題更大,這些都是視頻模型公司在具體模型訓練中面臨的工程化難題。
此刻,對于其他視頻大模型公司而言,Sora 驚豔的能力一方面驗證了 DiT 架構,減少了在技術架構選擇上的試錯成本,能更快往前發展,另一方面,他們也需要面對更有挑戰的現實難題——在沒有 OpenAI 那樣強大的人才和算力儲備下,如何加強算法、數據等各個環節的工程化能力來追趕 Sora。
3. 國内視頻模型公司如何把握機會?
Sora 發布之後,有人悲觀,認爲:"Sora 出現,其他視頻公司都歇菜了 "" 國内外差距被進一步拉大 ";也有人在剖析了更多細節之後認爲視頻模型的機會在被 Sora 激發之後,會迎來全新的發展空間。
一方面,Sora 的技術路線有借鑒意義,能夠讓其他公司避免路線搖擺,加速進行産品,另一方面 Sora 帶動市場更受關注之後,會吸引更多的人才、算力、數據、資金,迎來新的創業機會。
從 Sora 目前的進展可以看出,尚未實現實時更新,且等待視頻生成的時間也比較漫長。這意味着,Sora 尚未經受 ChatGPT 這樣大規模用戶的運行考驗,其模型的計算資源和優化程度尚未達到理想狀态,還需要時間進行繼續叠代。這給其他公司留下了時間和空間。
據 Reddit 社區上的網友爆料,OpenAI 在展示 Sora 功能時,主要使用了預先選擇的示例,并未允許公衆通過自定義提示詞來生成視頻,且生成一個 1 分鍾的視頻,Sora 需要超過 1 個小時的渲染時間。
愛詩科技的創始人王長虎稱,在他看來,目前 Sora 的技術發展相當于在 GPT2 和 GPT3 之間,還沒到 GPT4 的水平,留給市場的空間很大。
線性資本投資副總裁白則人告訴 36 氪:" 模型的發展會加速催生更繁榮的上層應用,帶來更多的應用創新機會,這其中包括視頻模型方向,也包括結合多模态的應用場景。但如何做出差異和建立長期護城河,是産品層創業公司一直面臨的挑戰,創業團隊更需要關注模型之外的壁壘建立,更回歸産品體驗、應用場景和商業本質。"
市場進展方面,國内很多企業也早有布局。首先,大廠在視頻領域的動作不斷,基本上在推進語言模型業務的同時也布局了視頻模型業務:
字節旗下剪映最近動作頻頻,目前,剪映已經在邀請一些博主内測旗下 AI 創作平台 Dreamina 的視頻生成功能。
阿裏通義實驗室目前開發了開源視頻生成模型和代碼系列 VGen。去年年底,阿裏發布了最新 AI 應用:Animate Anyone,可以根據一張人物照片,生成人體動畫視頻。
百度在年初推出了一款視頻生成模型 UniVG,能夠處理各種文本和圖像的組合輸入。
騰訊在 2023 年 12 月與北大和香港科技大學聯合發布了視頻生成模型 AnimateZero,并在今年發布了一個可以提升視頻質量的視頻處理工具 VideoCrafter2。
相比算力和人才儲備的大廠,創業公司面臨的挑戰更大,但也并非沒有機會。據 36 氪了解,目前智象未來 HiDream.AI 、愛詩科技、HeyGen、生數科技、右腦科技等創業公司,都已經預先布局視頻大模型的業務。不同于上一波語言模型的國内國外各自地盤發展的情況,在視頻模型領域,像愛詩科技等公司在早期就瞄準了海外市場,相當于與 Sora 在一個市場展開競争。
有不少行業大佬已經入局。愛詩科技的創始人王長虎曾任字節跳動視覺技術負責人,主導了抖音和 TikTok 等産品,以及字節跳動視覺大模型從 0 到 1 的建設;智象未來 HiDream.AI 創始人梅濤曾是京東集團副總裁和微軟研究院資深研究員;生數科技則由清華人工智能研究院副院長朱軍教授帶領,核心成員來自清華大學人工智能研究院。
所以綜合目前國内視頻模型公司進展來看,接下來,大廠和創業公司都會陸續加大投入,行業的競争會進一步加劇。而大廠的優勢在于,在人才、資金、算力上有原始積累,并且有數據和場景,而創業公司則可以利用自身快速敏捷的作戰模式,加速模型和産品叠代,把握産品層的創新機會。
此外,在商業化路徑上,由于 Sora 并未像 ChatGPT 一樣開放公測,所以現在也無從看到清晰的商業模式,但從 OpenAI 釋放的信号來看,可能依舊是以通用模型爲核心。
但對于中國創業公司而言,在算力成本、數據訓練等多重壓力下,在商業化過程中也會較早面臨路線選擇。
未來,視頻模型創業公司在不斷發展之後也将出現不同的分野:一條是不斷增強基礎模型能力,打造 C 端産品路線,比如愛詩科技就選擇了這條路,根據海外流量檢測網站 similarweb.com,目前愛詩海外産品 PixVerse 月訪問量增長迅猛,已經超過百萬;另一條是瞄準特定的場景進行訓練,打造專門的視頻模型,早日跑通某個 B 端場景的商業化閉環。
姚霆認爲,視頻生成賽道,對于創業公司而言,需要在早期就思考産品如何構建,從中尋找差異化的機會。" 目前,視頻生産還處于單鏡頭階段,未來,如果要生産一個短視頻或者短劇,視頻生産流程需要考慮多鏡頭、分鏡、故事邏輯等各類問題,這些産品問題都要前置考慮。"
技術、産品、商業化,每一處都内含成千上萬個待解決的細節問題,2024 年接下來的時間,對每一家視頻大模型而言,都是一場硬仗。
歡迎交流~