圖片來源 @視覺中國
文 | 奇偶派,作者 | 葉子,編輯 | 钊
繼 ChatGPT 後,OpenAI 又在文生視頻的領域中扔下了一顆深水炸彈,引爆了海内外 AI 圈。
2 月 16 日,OpenAI 的文字生成視頻模型—— Sora 首次面世。據介紹,Sora 可以根據所輸入的 prompt,直接輸出最高長達 60 秒的視頻,并且包含高度細緻的背景、複雜的多角度鏡頭,以及富有情感的多個角色。
在 OpenAI 創始人阿爾特曼的社交網站上,其也放出了 Sora 生成的視頻,如下便是以 "A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view"(一場在海洋上舉行的自行車比賽,不同的動物作爲運動員騎着自行車,通過無人機攝像機視角進行拍攝)爲提示詞生成的視頻。
此外,用更具體的 prompt 也可以獲得時長更久的視頻,如下便是以 " 一位時尚女性走在充滿溫暖霓虹燈和動畫城市标牌的東京街道上。她穿着黑色皮夾克、紅色長裙和黑色靴子,拎着黑色錢包。她戴着太陽鏡,塗着紅色口紅。她走路自信又随意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去 " 爲提示詞生成的視頻。
上述兩個視頻,如果不告訴你它們是由 AI 生成的,誰又能辨别出來呢?
那麽,OpenAI 的首款文生視頻模型 Sora 是如何完成文生視頻的?其與 Runway Gen-2、Pika 等 AI 視頻工具相比,有着什麽樣的進步,又有哪些不足?Sora 的出現,會讓哪些行業出現翻天覆地的變化?對國内的 AI 企業,又有哪些啓示呢?
Sora 的底層邏輯,其實和大語言模型相同?
要深入探索 Sora 的多方面特征,我們首先需從其技術根基着手。換句話說,我們最先需要明白的是,Sora 生成視頻内容的背後,究竟是依托于怎麽樣的技術實現的?
在當今的人工智能領域,大模型的發展都離不開 Transformer 架構。這一架構的核心思想是利用海量數據進行學習,以便在特定的目标場景中實現泛化效果,即通過分析先前的内容來預測後續的内容。
這種方法在文本生成領域中表現出色,因爲文本數據的結構和标準相對一緻。然而,對于視頻數據,情況就大不相同了。視頻數據包含了圖像内容、時間、顔色等多種維度的信息,如何将這些不同維度的因素有效結合,成爲了構建 AI 視頻模型的關鍵挑戰。
在 Sora 項目的推進過程中,OpenAI 深入思考并參考了大型語言模型的成功之道,即通過互聯網上的超大規模數據訓練,以獲得通用的處理能力,從而成功将代碼、數字和各種自然語言進行了有效的統一處理。
而爲了讓視覺數據模型繼承這樣的好處,Sora 也采用了與大語言模型相同的思路,即 LLMs 既然可以使用 token 标記,那麽 Sora 與采用類似于視覺領域中的 token 不就可以解決問題了嗎?
具體來看,Sora 模型構建了 Visual Encoder 視頻壓縮網絡,将視頻轉換到低維空間 Latent Space,然後将 Latent Space 分解成 Patch 表示,将視頻生成的任務轉化成通過已知 Patch 預測接下來的 Patches 的任務,然後通過 Decoder 将 Latent 還原成人類可理解的高像素視頻并拼接起來,最終生成目标視頻。
圖源:OpenAI-Sora 技術文檔
也正是因爲将視頻轉換成 Patch 表示,所以 Sora 模型并不像傳統的視覺模型那樣,需要被高寬比、分辨率、時間等因素限制,讓整個模型的範化能力和通用性變得更強,還支持更多的 Prompt 類型,完成圖生視頻、視頻擴展、多個視頻之間連接等功能。
與先前的文本生成視頻軟件如 Runway、Pika 和 Stable Video 等 " 前輩 " 相比,Sora 不僅在技術層面取得了突破性的進步,視頻效果上更是實現了如代際碾壓般的降維打擊。
首先,最直接差距的便是視頻長度的提升,社交平台上一位名爲 "Gabor Cselle" 的博主将相同的 prompt" 美麗、白雪皚皚的東京熙熙攘攘,鏡頭穿過熙熙攘攘的城市街道,跟随幾個人享受美麗的雪天,在附近的攤位購物,絢麗的櫻花花瓣随着雪花随風飄揚 " 輸入給 Sora、Pika、Runway、Stable Video 四個模型後,它們給出的結果是這樣的。
可以看到,當前主流的 AI 視頻生成軟件 Pika、Runway 和 Stable Video 視頻生成的時長普遍被限制在 5 秒内,在特定情況下,應用戶要求,這些平台能擴展至 16 秒,這已是 2024 年以前 AI 生成視頻領域公認的最長時間紀錄。而 Sora 則突破常規,其獨特的能力允許它生成長達一分鍾的視頻,這一時長無疑将其置于行業絕對的領先地位。
而在簡單的時長增加外,Sora 多鏡頭切換的能力,也讓人十分驚歎。
衆所周知,在真正的視頻拍攝中,多鏡頭場景的拍攝并不是件易事,不僅需要多個機位共同參與,還需要在後期進行複雜的剪輯,所以過去的 AI 視頻大多都是單鏡頭出現,但 Sora 放出的文生視頻很多都出現了多角度的鏡頭切換,并可以在不停的切換之間實現拍攝對象的一緻性,這都是其他 AI 視頻軟件無法完成的。
此外,Sora 創造出的場景和角色,已經達到了以假亂真的地步,從各種細節上來看,都好像是真實拍攝的一般,譬如下圖人物的瞳孔、睫毛等細節處理,都看不出任何的 AI 味道。
不過盡管 Sora 在文本生成視頻的領域取得了顯著的進展,它仍然隻是文生視頻革命的初步嘗試。OpenAI 在其技術文檔中也坦誠,Sora 存在不少局限性,例如,其無法準确地模拟許多涉及到交互的物理特性譬如玻璃破碎等,也會出現吃掉餅幹一部分後餅幹仍然完好無損的情況。
然而,雖然 Sora 距離完美還有漫長的道路,但它的問世已經在海外被廣泛視作第四次科技革命的一個裏程碑。這可以類比于第一次工業革命中火車上首次應用蒸汽機,那一刻人們意識到,原本需要數日騎馬車完成的旅程,現在隻需幾小時即可抵達。
360 公司的董事長周鴻祎對 Sora 的評價更是高度肯定,他表示,"Sora 不僅僅是一次簡單的嘗試,它所展示的,是大模型在理解和模拟真實世界方面取得的新成就和突破 "," 就像做夢一樣 "。他甚至預言,Sora 的出現可能會将通用人工智能(AGI)的實現時間從 10 年縮短至一到兩年,這無疑是對 Sora 以及人工智能未來潛力的極大認可和期待。
Sora,将颠覆這些傳統行業
OpenAI Sora 的推出,讓我們見證了一個技術奇迹的誕生。這個能夠快速且優質地将文字描述轉化爲引人入勝視頻的 AI 工具,不僅僅代表着技術上的一次巨大飛躍,也預示着我們熟悉的許多行業即将面臨一場革命。
受其影響最大的行業,莫過于視頻行業大類下的諸多細分行業了。
目前,全球有超過 60 億人口是視頻工具和短視頻的用戶,而其中與視頻産業相關的從業者可能已經超過了将近 10 億人,占到了全球總人口的 13% 到 14%,這些從業者涵蓋了影視行業、短視頻行業以及我們日常觸手可及的各種視頻展示領域,包括廣告制作等行業。随着人工智能(AI)技術在視頻領域的融合與創新,這些從業者所在行業正在經曆一場由 AI 視頻技術引發的變革。
對于影視行業來說,AI 視頻模型的出現,将極大地降低拍攝劇集的門檻。
博主快刀青衣發文表示,在與業内人士的溝通中,做了 20 年影視導演的陳坤看到 Sora 後說的第一句話是 " 要變天了 ",第二句話是 " 我直到今天才慶幸自己是個導演 "。
而在追問中,陳坤表示現在的影視行業,分工極其精細,很多工種和裏面的從業者都是階段式配合,隻有導演是需要從前期跟到後期的,然後去不停協調各個工種,從舞美、化妝、道具到燈光、攝像、攝影,從演員、編劇、劇務到動畫特效,可以說一個環節掉鏈子,整個戲就可能功虧一篑。而如果 AI 視頻按照現在的發展速度,至少很多簡單的鏡頭、群演、燈光布景等,都可以用 AI 去完成了。
可以說,那些過去需要拍一年,花費數千萬乃至上億的影視作品,在未來憑借 AI 的能力,或許隻需要一個月時間,成本也将大幅壓縮,一變革不僅将對影視制作的效率産生深遠影響,更可能引發對從業者技能要求的重大轉變,未來有創意、會寫 prompt 的導演,或許才是最需要的人才。
如果說對于影視行業從業者來說,AI 視頻模型是好幫手的話,那麽對于廣告行業從業者來說,更像是一場突如其來的 " 滅頂之災 "。
原本高度依賴人力創意和精細制作流程的廣告拍攝與後期制作,在 AI 技術的賦能下,得以實現大規模的效率提升與成本優化。比如,以往制作一支高品質廣告片,從策劃、腳本撰寫、場景搭建、模特選擇到拍攝剪輯、特效合成等環節,可能耗時數月并耗費高昂預算。
而随着 AI 視頻模型的應用,部分标準化及重複性高的工作内容,如背景替換、動态貼圖、群演模拟等,均可以借助 AI 快速生成,從而極大地縮短了項目周期。
同時,AI 作爲 " 無情的學習機器 ",完全可以替代人類根據品牌需求自動生成多版本廣告創意,并通過機器學習不斷優化傳播效果,這無疑将對廣告行業傳統的創意生産模式帶來前所未有的挑戰,試想,在未來的競标中,諸多友商報出數百萬元價格的時候,AI 視頻廣告公司卻能以數十萬元甚至數萬元的成本完美解決用戶需求,誰又能中标呢?
可以說,對于廣告行業來說,AI 視頻帶來的影響并不隻是激烈的競争,更意味着整個行業的組織模式與商業模式的重構。
此外,對于短視頻行業來說,可以生成一分鍾視頻的 Sora,已經對短視頻從業者構成了極大的威脅。
在全球範圍内,無論是中國的抖音、快手、B 站和小紅書等平台,還是國際版的 TikTok,短視頻内容消費正處于前所未有的高峰,而随着 Sora 的出現,用戶現在能夠迅速制作出各種類型的視頻内容,未來稀缺的不再将是視頻拍攝或者剪輯的能力,隻要擁有獨特的創意,便可輕松入局,也将會在短視頻行業中掀起另一場風暴。
在 Sora 這一技術現象的輻射範圍内,在其對視頻産業帶來的挑戰與變革之外,也正悄然爲其他領域開辟出新的機遇。其中,算力行業自然首當其沖,受益于 Sora 驅動的 AI 視頻生成技術對強大計算能力的持續渴求,市場需求将迎來顯著增長。但此處先按下不表,轉而聚焦于另一個重要領域——安全行業。
海外研究界普遍認爲,在 AI 視頻生成廣泛應用後,安全領域的革新将會是最受惠的方向之一。可以預見的是,随着技術的發展和普及,市場上将湧現一大批專注于視頻真僞鑒别技術研發與服務的新興企業。這些公司将利用最先進的算法和技術手段,爲全球範圍内的政府、企業和個人用戶提供視頻内容真實性驗證服務,以及相關的數據安防解決方案。
Sora 帶起的這一波浪潮不僅會推動視頻認證技術本身的進步,還将帶動整個信息安全産業鏈的升級與完善,包括但不限于數字水印技術、深度學習檢測模型、區塊鏈存證等前沿技術的深度融合應用。一個全新的、圍繞視頻内容安全防護的生态系統也将在全球範圍内逐步構建起來,爲維護信息社會的公信力與秩序提供有力支撐。
百度、訊飛與字節,誰能摘下國産 Sora 桂冠?
在探讨了 OpenAI 的 Sora 模型與其對其他行業帶來的深遠影響之後,我們也該将視角轉向國内,關注一下中國企業在文生視頻領域的進展了。
年後 A 股開盤後,在 Sora 的催化之下,諸多概念股迅速升溫,當日當虹科技、中文在線、因賽集團等公司均以漲停收盤,盤後也有許多企業在投資者交流平台交流相關進展。
其中,2 月 19 日虹軟科技官微宣,其核心大模型技術引擎——虹軟 ArcMuse 再次升級。而此次升級将支持面向商拍的商業視頻自動生成。
據介紹,與 Open AI Sora 類似,虹軟 ArcMuse 大模型視頻生成基于 diffusion-transformer 技術架構,具備豐富多樣的創意力和想象力。通過圖像,ArcMuse 大模型能夠捕捉到商品的細節特征、質感、色彩等方面的精确信息,生成更能展示商品真實面貌的動态商拍視頻。
而因賽集團則在與記者的交流中表示,其 AIGC 項目團隊按照計劃,将在三月進行文生視頻功能的開發,等待時機成熟後投入公測。
而在大模型的主流玩家行列裏,字節跳動早在年初就發布了超高清文生視頻模型 MagicVideo-V2。據悉,該模型輸出的視頻在高清度、潤滑度、連貫性、文本語義還原等方面,比目前主流的文生視頻模型 Gen-2、Stable Video Diffusion、Pika1.0 等更出色。
而就在前幾日,阿裏雲旗下魔搭社區(Model-Scope)上線文本生成視頻大模型。目前由文本特征提取、文本特征到視頻隐空間擴散模型、視頻隐空間到視頻視覺空間這 3 個子網絡組成,整體模型參數約 17 億。
但整體看下來,除去字節跳動的 MagicVideo-V2 有一定的水平之外,其他大多都處于一言難盡,甚至還無法看到效果的階段,同 Sora 的距離還有很遠很遠。
至于國内何時能複現 Sora,複現過程中會遇到哪些問題,也有媒體采訪了某大模型團隊的工程副總裁。
在采訪中,對方表示,"Sora 的 ' 核彈效應 ' 表現爲業内廣泛認可,是視覺 AI 的 'ChatGPT 時刻 '"," 但是 Sora 打通的這條道路并不神秘,總體上沒有很多超預期的技術,它是沿着大一統多模态大模型的既定路線,在工程上取得的一項成果,沒有改變既定的技術範式和設計理念。"
但對于國内大模型團隊的複現速度,他提醒道," 魔鬼在細節裏,而細節在閉源模型的技術報告裏幾乎沒有任何披露。追趕的速度也會由數據、算力和工程能力等硬約束。"
換一種說法便是,其實 Sora 實現文生視頻的大緻思路和邏輯都已經在技術文檔中公之于衆了,但想要真正完成複現甚至超越,仍然需要考驗國内 AI 企業包括算力、數據和工程能力在内的諸多的綜合實力。
從這樣的角度來看,那最有望做出并肩甚至超越 Sora 模型的企業,也無外乎在大語言模型中領先的百度、科大訊飛。
百度其實在很久之前就推出了文生視頻的能力,在百度的百家号中,當用戶上傳文章之後,會有一部分文章被百度精選出來,自動生成視頻,而在最近也發布了一款名爲 "UniVG" 的視頻生成模型,相關效果也位于除 Sora 之外的前列。
同時,百度作爲國内深耕 AI 行業最深的企業,無論是算力的充足、數據的豐富還是工程能力的先進,都處于國内第一梯隊,隻要其以正常的速度進行推進,那麽百度版的能力更強的文生視頻模型,也将于未來不久上線。
除百度外,科大訊飛作爲專精 AI 賽道的公司,也是大語言模型競争中的佼佼者,1 月底,星火認知大模型剛完成了 V3.5 的升級,并在華爲的幫助之下,相關算力與工程能力得到了較快的提升。也有接近科大訊飛人士透露,科大訊飛目前内部已經開始文生視頻進一步攻關研發。
而在 " 傳統 " 領先的大模型企業外,字節跳動或将借助存儲數據的優勢彎道超車。
字節跳動在短視頻和社交媒體方面的海量數據資源,使會其在文生視頻模型的研發上占據獨特優勢。MagicVideo-V2 的發布及其效果上的顯著提升,已經證明了字節跳動在該領域的技術實力與創新能力。
随着火山引擎大模型服務平台 " 火山方舟 " 的推出,以及與多家合作夥伴共建的生态體系不斷完善,字節跳動不僅能夠利用自身的龐大用戶基礎産生的實時、多樣的數據流進行訓練優化,還有望通過高效的模型叠代和協同創新,在未來開發出能與 Sora 匹敵甚至超越的新一代文生視頻模型。
但這樣的優勢也未曾不是一種包袱,作爲數據層面最占優勢的字節,又能否快速補上工程能力上的短闆,摘下國内首個正式開放文生視頻的桂冠,仍需要時間來證明。
寫在最後
Sora 的出現,無疑是 AI 領域的一次重大突破。它不僅展現了 AI 在視頻生成領域的巨大潛力,更爲内容創作和多個行業帶來了全新的思考和機遇,抖音、Tiktok、B 站、P 站等視頻平台,都需要重新審視自己的内容生态了。
而對于中國企業來說,Sora 的出現既是挑戰也是動力,國内 AI 企業前方又出現了一個需要追趕的目标,百度、科大訊飛等在大語言模型中領先的企業,以及擁有海量數據資源的字節跳動,都應該加速了。
參考資料:
1.《OpenAI 最新文生視頻模型 Sora 技術能力解密:基于 Patch 的數據規範性、多模态 Prompt 支持、物體持久性和遠程相幹性能力》,Garvin Li;
2.《Sora 模型發布,哪些行業要變天?》,IT 魔術師;
3.《國内複現 Sora 能力幾何?李維:不存在跨不過的技術門檻》,中證金牛座;
4.《Sora 技術文檔》,OpenAI。