圖片來源 @視覺中國
文 | AI 大模型工場,作者 | 星奈,編輯 | 方奇
春節假期期間,誕生了兩個頂流。一個是成功減肥 100 斤的賈玲,還有一個 AI 科技圈的 Sora。
就在三天前,當大家都還在沉浸在春節假期中時,OpenAI 卻悄悄地放出一記大招,在沒有任何預兆和消息透露的情況下,奧特曼突然官宣了 OpenAI 首個文生視頻大模型 Sora,颠覆了整個生成式視頻大模型的全球格局。
随着 Sora 的亮相,關于它的讨論和報道如潮水般湧來。"Sora 風 " 不僅席卷整個科技圈,也在影視圈、遊戲圈刷屏,馬斯克、周鴻祎、賈揚清等一衆科技大佬紛紛下場讨論。
馬斯克直言:人類要完蛋了。
360 創始人周鴻祎第一時間發博表示,Sora 意味着 AGI 實現将從 10 年縮短到兩三年。他談到 Sora 通過把大語言模型和擴散模型結合,實現了對現實世界的理解和對世界的模拟兩層能力。一旦 AI 接上攝像頭,把所有電影、YouTube 和 TikTok 上的視頻看一遍,對世界的理解将遠超過文字學習。
前阿裏 VP 賈揚清也對 Sora 贊不絕口,直呼:真的非常牛。他認爲 Sora 的出現将對整個 AI 行業産生深遠影響。對于對标 OpenAI 的公司來說,它們将面臨被其他大廠收購的機會;對于算法小廠來說,它們要麽在算法上與 OpenAI 媲美,要麽在垂直領域深耕應用,要麽就選擇開源。他還預言,随着 Sora 的推出,infra 的需求将繼續猛增。
随着 Sora 概念的持續發酵,資本市場也聞風而動。2 月 19 日早盤,Sora 概念股大幅高開,個股掀漲停潮。截至發稿,會暢通訊、當虹科技、因賽集團等 7 股漲停,易點天下、數碼視訊等跟漲。
然而,Sora 的出現也引發了人們對于 "AI 代替人類 " 的焦慮。随着 AI 技術的不斷發展,許多行業都面臨着被自動化和智能化的風險。這種焦慮不僅體現在科技圈内部,也在各個行業中蔓延開來。
有趣的是,在互聯網上,一些人已經敏銳地捕捉到了這種焦慮情緒的商業價值。他們利用人們害怕被 AI 取代的心理售賣各種 AI 課程,并賺了春節過後的第一桶金。
AI 輸出視頻效果炸裂,現實内爆
這一次,Sora 之所以能夠震驚行業,成爲 " 頂流 ",在于其能夠對世界進行模拟,它不僅能夠理解提示詞中的角色、場景、概念等,還能理解 " 這些事物在物理世界中是如何存在的 "。
從時長到運鏡再到角色理解,Sora 模型刷新了多個行業指标,甚至重新定義了文生視頻在當下的技術極限。
首先在視頻生成時長上,此前的視頻生成模型 Runway、Pika 等生成的視頻長度僅爲幾秒,Sora 的 60 秒超長長度可謂吊打同行。
隻要輸入 " 猛犸象在雪地上走進 "、" 維多利亞冠鴿 " 等關鍵詞就能夠迅速生成一個 60 秒左右的高清視頻,裏面包含的豐富的細節、鮮豔的色彩。
目前,Sora 還能夠生成具有多個角色、特定類型的運動以及主題和背景的準确細節的複雜場景。該模型不僅了解用戶在提示中要求的内容,還了解這些東西在物理世界中的存在方式。
例如,輸入提示詞:中國龍的中國農曆新年慶祝視頻。
Sora 就能夠生成一個熱鬧的舞龍遊街視頻,裏面一個值得注意的細節是,有不少觀衆在舉着手機錄視頻,這一細節不僅爲整個場景增添生動性與現實感,更展示了 Sora 模型對現代文化和習俗的深刻理解。
Sora 還可以在單個生成的視頻中創建多個鏡頭,也就是說,Sora 已經掌握 " 運鏡 " 技術。不少網友調侃:" 自導電影,指日可待。"
提示詞:無人機攝像機圍繞着一座美麗的曆史教堂盤旋。Sora 視頻運鏡以無人機視角對教堂環繞拍攝,這個視頻的運鏡似乎有與專業攝影師一比高下的意味。
不僅如此,Sora 還能夠理解并生成專業攝影動畫效果。例如,輸入提示詞:從郊區房屋的窗台上長出的一朵花的定格動畫,将得到以下畫面。一朵花緩緩綻放,期間還有跟随花朵綻放的絲滑運鏡,誰看了不說一聲 " 牛逼 "。
除了文生視頻外,Sora 還支持圖生視頻、擴展生成視頻、視頻生成視頻、連接視頻等。
圖生視頻
提示詞:在一個華麗的曆史大廳裏,一個巨大的潮汐達到頂峰并開始崩潰。兩名沖浪者抓住時機,熟練地駕馭海浪。
擴展生成視頻
Sora 還能夠向前或向後擴展視頻。以下視頻從生成的視頻片段開始向前、向後延伸,以産生無縫的無限循環。
視頻生成視頻
利用 SDEdit, ( 32 ) 到索拉技術使 Sora 能夠零鏡頭轉換輸入視頻的風格和環境。
輸入視頻
将設置改爲在茂密的叢林中輸入視頻
連接視頻
Sora 可以在兩個輸入視頻之間逐漸插值,在具有完全不同主題和場景構圖的視頻之間創建無縫過渡。上下兩側視頻結合生成中間視頻。
不過,Sora 模型的弱點也很明顯,在以下視頻中,我們發現,老人吹蠟燭并沒有将蠟燭吹滅;籃球穿過球筐邊緣直接落地。
Sora 難以準确模拟複雜場景的物理特性,并且可能無法理解因果關系,此外,還可能混淆提示的空間細節,如左右混淆等。
理解和模拟現實世界到底該如何實現
Sora 作爲一種擴散模型,具備三維空間連貫性、模拟數字世界、長期連續性和物體持久性等特點。
其訓練過程受到大語言模型的啓發,采用擴散型變換器結構,簡單來說,就是将視頻壓縮到低維潛在空間并分解爲時空區塊。Sora 在壓縮空間上訓練并生成視頻,配合解碼器模型還原到像素空間。随着計算量增加,樣本質量顯著提升。
Sora 可生成不同分辨率、持續時間和縱橫比的視頻,并使用 DALL · E 3 爲視覺訓練數據生成高度描述性的标題,将簡短提示轉換爲詳細提示。因此,該模型能夠更準确地理解提示詞文本。
在數據方面,OpenAI 将視頻和圖像表示爲 patch,類似于 Transformer 中的 tokens。這種基于 patch 的表示使得 Sora 可以在比以前更廣泛的視覺數據上進行訓練,涵蓋不同的持續時間、分辨率和縱橫比。
另外,OpenAI 還發現在原始大小的數據上訓練相比以往将視頻調整大小、裁剪或修剪爲标準大小具有更爲明顯的好處。
采樣靈活性
Sora 可以對寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介于兩者之間的所有内容進行采樣。這使 Sora 可以直接以原始縱橫比爲不同設備創建内容。它還使我們能夠在以全分辨率生成之前以較小的尺寸快速制作内容原型——所有這些都使用相同的模型。
改進的取景和構圖
OpenAI 發現,以原始縱橫比對視頻進行訓練可以改善構圖和取景。研究團隊将 Sora 與模型的一個版本進行了比較,該模型将所有訓練視頻裁剪爲正方形,這是訓練生成模型時的常見做法。在方形裁剪上訓練的模型有時會生成視頻,其中主體僅部分可見。相比之下,Sora 的視頻改善了取景。
Sora 視頻模型還支持現有圖像或視頻輸入,并具有圖像生成功能、新興的仿真功能。這些功能使 Sora 能夠模拟物理世界中人、動物和環境的某些方面。
OpenAI 表示,Sora 是能夠理解和模拟現實世界的模型的基礎,并且相信這一能力将是實現 AGI 的重要裏程碑。
Sora 刷屏時代,國内廠商搶注文生視頻
這次,Sora 視頻模型的刷屏,無疑在國内 AI 領域掀起了巨大的波瀾。
從之前爆火的 Runway、Pika,到現在的 Sora,随着多模态模型能力的不斷提升,加注文生視頻領域成爲國内大廠發展大模型的必經之路。
在中國的大模型企業裏,AI 大模型工場一直在跟蹤和報道,以百度爲例。去年年末,推出文生視頻工具 " 度加剪輯 ",它憑借一鍵獲取最新熱點、AI 生成文案、一鍵生成視頻等強大功能,迅速在市場上嶄露頭角。
與此同時,360 作爲國内知名的安全企業,在 AI 領域同樣有着深厚的積累。2023 年 6 月份就推出了 "360 智腦文生視頻 " 的創作工具,顯示了 " 無中生有 " 的能力。
字節跳動也在積極布局 AI,日前,抖音集團 CEO 張楠宣布已經辭去集團 CEO 一職,全力聚焦剪映發展,據 AI 大模型工場了解,張楠過去一年已經在該領域投入了大量精力,并即将推出一個新的 AI 生圖和視頻産品。
阿裏達摩院也宣布開源 Video-LLaMA,幫助大語言模型加上了 " 眼睛 " 和 " 耳朵 ",使其能夠理解和生成視頻内容。
此外,除了這些科技巨頭,更多的初創企業也在躍躍欲試。如 " 數美科技 " 推出的 " 視頻内容生成器 " 等。這些初創企業的加入,無疑爲文生視頻這一新賽道注入了更多的活力和可能性。
實際上,文生視頻的爆發在意料之中,隻是沒有想到會這麽快。AI 大模型工場在之前的文章中就曾談到,2024 年多模态将成爲主流叙事,從文字、圖像到視頻,多模态讓 AI 更直觀和生動。
可以說,Sora 的出現加速了國内大模型多模态能力的發展,爲國内 AI 市場帶來了新的機遇和挑戰。在這個新的一年裏,誰能夠最先做出 " 國産版 Sora",或許将成爲決定勝負的關鍵。
但無論如何,這一場由 Sora 引發的 AI 熱潮,已經讓整個國内大模型市場充滿了無限的可能性和期待。