圖片來源 @視覺中國
文|光錐智能,作者|郝鑫,編輯|劉雨琦
AI 視頻一躍成爲 " 明日之星 ",大廠和創業公司們打得熱火朝天。
去年 12 月,Pika 的出現仿佛點燃了 AI 視頻賽道的引線,一個月之内冒出了近十家公司,谷歌、阿裏、字節、騰訊競相下場,不斷将戰事推向了高潮。
"AI 視頻的 Midjourney V5 時刻就要到了 ",即将迎來成爲生産力的關鍵時刻。
2022 年~2023 年,文生圖的技術以肉眼可見的速度叠代進化。Midjourney 平均 3 個月一個版本,一路從 V1 狂奔到了 V6,實現了從 " 面目全非 " 到 " 細膩逼真 " 的裏程碑式的巨變。文生圖技術以月爲單位的進化速度,像一把節奏緊湊的小錘,不停提醒所有 AI 視頻的公司們,留給他們成長的時間,不多了。
(圖:網友制作的 V1-V6 的生成效果對比圖,來源 X)
如今 AI 視頻的發展軌迹也正在慢慢向文生圖靠攏,"Midjourney V5" 成爲了一個關鍵性的臨界點:一旦突破,用戶将大規模湧入,數據飛輪開始轉動,效果日新月異,一步步推動着文生視頻從 " 玩具 " 蛻變爲 " 生産力 "。
從文字到圖片、視頻的發展一脈相承,從文生圖的進化曆程中,也可以找尋到 AI 視頻的影子。
當 AI 視頻成爲生産力後,才是産業鏈齒輪開始轉動的開端。隻有能用起來,才能誕生目标用戶群體;隻有能留存住用戶,産生持續性的付費,才能構建起清晰的商業模式;也隻有跑通了商業模式,池子裏的企業才能存活下來,用消費端推動供給端,才能盤活整個 AI 視頻産業。
"AI 視頻行業的生産力 " ——這恰恰才是現在各路玩家争奪的價值所在。
夢工廠創始人 Jeffrey Katzenberg 在近期預測," 生成式 AI 将使動畫電影的成本,在未來 3 年内降低 90%,該技術将給媒體和娛樂行業帶來徹底的颠覆 "。
" 未來可能實現以每秒 30 幀的高分辨率實時生成内容,并且到 2030 年,可能會實現整個視頻遊戲的生成 ",Midjourney 首席執行官 DaVid Holz 判斷道。
V5 賽點已至,新一輪的排位賽正式打響,何時才能誕生下一個 Midjourney?
AI 視頻迎來 " 生産力 " 時刻
實際上,AI 視頻幾乎與文生圖同一時期進入到人們視野中。
2023 年初,Midjourney 帶火了文生圖,Runway 則激起了 " 人人制作電影大片 " 的無限遐想。
彼時,看到文生圖領域在效果上大放異彩的 Runway 創始人曾表示:" 希望 Gen-1 能像 Stable Diffusion 在圖像上所做的那樣爲視頻服務。我們已經看到了圖像生成模型的爆發,我相信 2023 年将會是視頻之年。"
但顯然這個論斷下得有點過早。2 月,RunwayAI 視頻編輯 Gen-1 發布,功能類似于 AI 版的 PS,可通過文字輸入進行視頻的風格轉化和修改;3 月,發布文生視頻模型 Gen-2,支持文生視頻、文本 + 圖像生成視頻。
宣傳視頻很酷炫,但具體使用效果卻差強人意,出現了時長短、生成畫面不穩定、指令理解出錯、沒有音頻、動作不連貫和不合理等等種種問題。
Runway 打響 AI 視頻第一槍後,雖未停下腳步,但卻在視頻編輯工具的道路越走越遠,運動筆刷、文字轉語音、視頻合成等功能,隻能算 " 錦上添花 "。Gen-2 遲遲沒有根本性的突破,也讓 AI 視頻沉寂了一段時間。
就在大家快要失去對 AI 視頻耐心的時候,去年 12 月,Pika、Genmo、Moonvalley、NeverEnds、谷歌 VideoPoet、阿裏 Animate Anyone、字節 Magic Animate,踏着希望之光來了。
在 Pika 的官方宣傳片中,僅需一句話,就生成了動畫版的馬斯克,不但神形兼備,而且背景和動作都非常合理連貫,面部一緻性也驚人得完美。
在其官方展示的第一個視頻中,生成效果幾乎可以達到迪士尼等動畫電影公司的質感。
(圖:Pika 1.0 宣傳視頻動圖,源自 X)
據使用過 Pika 1.0 産品的用戶反映,Pika 1.0 支持 3 種方式生成視頻:文生視頻、圖生視頻、視頻轉視頻。3D 和 2D 效果确實上了一個全新的台階,逼真度、穩定性、光影效果都可以吊打 Gen-2。
"Pika 1.0 和 Gen-2 仿佛不是一個時代的産品 ",不少網友都在使用後給出了這樣的評價。
Pika 們的爆火,要歸根于背後基建技術的成熟。其中最重要的就是 AnimateDiff。這是一種基于 Stable Diffusion 文生圖模型所搭建起來的動畫框架,可讓生成的圖片直接動起來,字節、騰訊、阿裏便是在這個框架的基礎上推出了自己的 AI 視頻模型。
當然,除了 AnimateDiff 的廣泛應用,也與大模型多模态的發展,息息相關。
Pika 們的出現開啓了 AI 視頻的新篇章,AI 視頻即将迎來 "Midjourney V5" 時刻。
這裏面有兩層重要的變化,首先體現在生成層面。
V5 階段,可達到更好的生成效果,在幾秒的生成時間内能夠達到動作、表情、叙事邏輯的連貫性;更有效的控制方式,對輸入指令的理解、遵從,鏡頭、轉場 、風格轉化的控制都有了新的提升;更低的資源消耗,能夠以更短的時間、更少的算力調用,生成更高分辨率和優質的視頻,幾秒的視頻也可以達到幾十秒的效果。
更重要的體現在生産力的突破上。
以 Midjourney 爲例,在 V5 階段,成爲了 UI 設計師的設計工具,遊戲原畫師的助手,跨境電商的商品展示、廣告營銷的素材庫。同樣在這個階段,AI 視頻也将有可能生成廣告、短視頻、電影、遊戲,成爲可以替代編導、導演、演員、設計師的生産力工具。
大模型、擴散模型,兩條技術路徑的殊途同歸
AI 視頻就像一部電影大片,賣不賣座、叫不叫好,取決于劇本和特效兩個重要元素。其中,劇本對應着 AI 視頻生成過程中的 " 邏輯 ",特效則對應着 " 效果 "。
爲了實現 " 邏輯 " 和 " 效果 ",在 AI 視頻行業中,分化出了兩條技術路徑擴散模型和大模型。
(圖:光錐智能自制)
AIGC 火了以後,擴散模型長期占據了圖像生成領域的主導位置,這背後要歸功于 Stability AI 的不斷開源,一方面讓更多的開發者加入到了精進模型的隊伍中,另一方面也一手将擴散模型捧到了文生圖領域的 " 王位 " 上。
如今,AI 視頻自然也被深深地打上了擴散模型的烙印。大廠和初創公司或多或少都在采訪和論文中提到過擴散模型的思路,Pika 一批新崛起的公司取擴散模型之長,打造自身的新模型;英偉達、阿裏、字節、騰訊等公司在其基礎之上,進一步提升模型能力。
在大模型技術路線上,經曆過一次改變。大模型面世的初期,AI 視頻的主要思路是用訓練大模型的那套方法,靠大參數、大數據來從頭構建一個文生視頻的模型,比如 2022 年就問世的 CogVideo 就是這類代表。
但随着大模型從單一文本邁向多模态,視頻就像之前文字、圖像生成一樣,成爲了從大模型根上長出來的一項功能。從很早的時候,谷歌、微軟就在嘗試用大模型中 Transformer 的方法訓練和增強現有的擴散模型,但直到谷歌發布多模态大模型 Gemini 和 VideoPoet 視頻大模型後,大模型生視頻這條路才終于看到了曙光。
(谷歌 VideoPoet 視頻生成效果演示)
兩條技術路徑無好壞,但側重點不同,擴散模型的核心在于 " 還原呈現 ",重效果;而大模型核心在于 " 接收理解 ",重邏輯。
正是基于這樣的特性,導緻了走擴散模型路線的 AI 視頻公司在細節刻畫和生成效果上優勢更強,走多模态大模型路線的公司在連貫性和生成合理性上更好。
Pika 聯合創始人兼 CTO Chenlin Meng 認爲,可以同時發揮兩條路徑的優勢來構建視頻模型,比如 GPT 一類的大模型可以捕捉上下文,視頻中也需要上下文控制生成每一幀從而達到系統的一緻性;同時每一幀仍然是一張圖片,可以用擴散模型來提高生成效果。
Pika 的觀點不是個例,行業中越來越呈現出這樣的趨勢。原因在于,雖然現階段,Pika、Runway 每一次升級都在效果宣傳上搏足了眼球,但要落地到廣告、電影、營銷等實際場景中,還有很大的距離。
英偉達高級研究科學家兼人工智能代理負責人,Jim Fan 認爲,目前所生成的視頻隻能被稱作 " 無意識的、局部的像素移動 ",缺乏可以一以貫之的時間、空間、行爲邏輯來控制生成過程。
有一個例子可以很好地理解當前 AI 視頻發展現狀。在 X 上,一個名叫 Ben Nash 的網友,做了一個測試,用同樣的英文提示詞 " 威爾 · 史密斯吃意大利面 " 來測試 Runway、Pika 的視頻生成效果。結果發現,在兩個視頻中,雖然大緻可以呈現出想要呈現的效果,但卻出現了 " 意大利面倒流 "、" 面被直接吸入嘴裏 " 的滑稽場面。
Jim Fan 表示:" 到 2024 年我們将看到具有高分辨率和長時間連貫性的視頻生成。但這将需要更多的‘思考’,即系統 2 的推理和長期規劃(對應 System 1 負責無意識的感覺運動控制)"。
近期 Runway 也在官網宣布了一項新的長期研究項目 " 通用世界模型 "(General Wold Models),其解釋原因稱:" 我們相信人工智能的下一個重大進步将來自于理解視覺世界及其動态的系統。"
邏輯、思考、推理,或許将成爲,2024 年 AI 視頻的關鍵詞,兩條技術路線的融合也将成爲常态。
生産力 " 解救 " 商業化
而一旦成爲生産力,眼前 AI 視頻面臨的商業化困境,便迎刃而解。
生産力工具有兩個方向,向上走的專業化路線,和向下包容的大衆路線。但現階段,AI 視頻行業多數還是以視頻剪輯工具的形态向用戶開放使用。
" 工具即産品 " 在文生圖和 AI 視頻賽道十分普遍,大部分公司選擇方法就是,最開始先在 Discord 上小範圍開放測試,到正式開放使用,再到上線網站。
" 工具 " 意味着專業性高、門檻高、操作複雜、上手困難,這就與易上手、操作便捷、體驗性高的 " 産品 " 拉開了差距。
舉一個很典型的例子,你需要花費時間、金錢成本在 PR 軟件上了解每個工具的功能是什麽以及怎麽使用這些工具,以達到比較好的視頻制作效果;但你打開抖音發布視頻隻需三步,點擊加号 - 拍攝視頻 - 發布,下至幼兒園的孩子,上至 60 多歲的中老年人,都能覆蓋,這就是工具與産品最明顯的差異。
生産力未突破的前夜,工具即産品或許還将存在一段時間,但下一步擺在 AI 視頻公司面前的問題很明确:是要堅持走專業工具路線,還是要把門檻打下來,做下一個 AI 視頻版的 " 抖音 "?
在這個問題上,Pika 已經率先做出了選擇,其創始人郭文景在采訪時表示:" 我們開發的并不是電影制作工具,而是爲日常消費者打造的産品——我們雖然有創造力,但并不是專業人士。"
落實到商業化上,郭文景稱 Pika 最終可能會推出分層訂閱模式,讓普通的付費用戶也能享用更多的功能,計劃通過這種方式,讓 Pika 與其他競品分出區别。
生産力能力欠缺的 AI 視頻工具也無法長期留住用戶,不斷地産生付費,從而形成健康的商業模式。現在的現狀是,用戶出于獵奇,或免費嘗鮮,或抱着試一試的心态訂閱一個月,到期過後,該視頻工具就被抛之腦後。
這對創業公司的打擊是巨大的,沒有持續性的收入,不能自造血,就得依賴融資,哪天融資斷了,公司也就維持不下去了。放眼到整個 AI 視頻行業來看,如果作爲身在其中的個體都生存不下去,又談何行業未來前景。
如果一個行業隻有單一的工具,沒有更多的落地場景,也無法形成完整的生态閉環。就像現在,用戶在 AI 視頻工具上淺淺地停留一下,然後把大把的流量引向了社交平台。
(圖:源自 X)
比如,馬斯克跳舞、蒙娜麗莎跑步等大量搞怪視頻,一度席卷了 TikTok;使用 Runway、Pika 等視頻工具生成的視頻,通過用戶在 X、TikTok、油管的分享一炮走紅,獲得了巨大的流量,有人甚至已經靠這種方式完成了流量變現,而作爲工具的提供方,卻隻能淪爲社交平台的 " 嫁衣 "。
打通工具和場景的壁壘,作爲參考案例,國内抖音已經開始在嘗試。
剪映的相關 AI 功能一上線就和抖音實現了聯動,并引發了一波抖音擴圖大賞," 讓你意想不到的 AI 擴圖 " 一話題挑戰,達到了 2 億多的播放量,甄嬛打籃球、星黛露秒變星黛驢、皮草美女化身狼人,AI 是驚喜還是驚吓,引發了大量的讨論。
一旦成爲了生産力,整個産業鏈條的消費端将開始出現購買力,消費端的需求推着供給端進化,至此,AI 視頻才算徹底 " 活了 "。