近日,OpenAI 和 Sora 項目的動蕩讓外界對熱鬧的 AI 視頻行業捏了一把汗。
9 月末,OpenAI 首席技術官米拉 · 穆拉蒂(Mira Murati),以及在 o1 模型、GPT-4o、GPT-4v 模型的開發過程中扮演了重要角色的研究副總裁巴雷特 · 佐夫(Barret Zoph)與首席研究官鮑勃 · 麥克格盧(Bob McGrew)也宣布離職。
10 月 4 日,Sora 項目負責人蒂姆・布魯克斯(Tim Brooks)在社交平台 X 上官宣離職,加入谷歌 DeepMind。
如果搭配 Sora 正式版一直沒有确切時間表的現實一起食用,這像極了某個明星項目泡沫被戳破,局中人各自打算的熟悉戲碼。
而最近 AI 視頻的競賽,也開始呈現出一些白熱化。
據 SimilarWeb 統計,位居全球前列的 AI 視頻生成企業 Luma AI 網站在 9 月的總訪問量僅爲 1181 萬次,環比下跌 38.49%。紅極一時的 Pika 也在 9 月總訪問量出現跌落。雖然其在 10 月新版本中憑借一批新的模版效果再次爆火,但産品如何持續的吸引用戶興趣的問題也逐漸浮出水面。
一些最初對 Sora 持謹慎态度的聲音現在再度被拿出來重新咀嚼,比如電影制作人帕特裏克 · 塞德伯格(Patrick Cederberg)在 4 月所說,他必須讓模型生成數百個短片,才能找到一個可用的短片。換句話說,Sora 的使用非常困難。
所幸的是,Tim Brooks 并沒有告别 AI 視頻,他大概率加入了 DeepMind 的 AI 視頻生成工具 Veo。Sora 的起落或許不是 AI 視頻行業的唯一标尺,至少在能力上,開始有 Meta Movie Gen 這樣的挑戰者開始宣稱幹掉了 Sora。而國内的 AI 視頻産品生态,也一直在有新的變化。
AI 視頻賽道的降溫,換句話說,也是下一批更好産品叠代出來之前的醞釀期。而最近似乎有了一個足夠驚豔的産品走入大衆視野。
PixVerse V3 真把次元壁打破了
在市面上的 AI 視頻産品已經充實到讓人開始「視覺疲勞」情況下,PixVerse V3 真的足夠特别?
如果你抱着類似的疑惑,那這隻皮卡丘的出現就足夠打消大半。
除了那些無法被複現的發布會演示作品,這大概是 AI 視頻生成中二次元形象和真實世界第一次能夠如此和諧的進行互動。
畫面裏,這隻皮卡丘的形象與我們印象中卡通片中的樣子别無二緻,但它卻出現在一條真實的繁忙街道上,然後就這麽水靈靈的跳到了一個小哥懷裏。
這是這段視頻所需要的 Prompt:
中置前置攝像頭:皮卡丘站在熙熙攘攘的城市街道上,旁邊是一位背包客,背包客從鏡頭前走過,皮卡丘從背後跑來。跳到了背包客的懷裏。皮卡丘開心的摟着他的脖子,非常親近。行人匆匆忙忙,背包客抱着皮卡丘繼續往前走,皮卡丘的臉頰興奮地閃閃發光,點亮了這一刻。迷人而輕松。
1934 年,米高梅出品的《Hollywood Party》裏吉米 · 杜蘭特用手指」叼着「米老鼠的動作,成爲世界影史中卡通與真實影像結合的第一個經典畫面。90 年後,這個充滿巧思但在實現上卻異常繁瑣的效果終于可以用 AI 來代爲效勞。
離譜的是,皮卡丘是 AI 做的,皮卡丘所在的真實世界也是 AI 做的。從效果看,PixVerse V3 對于動畫進入現實世界這件事,理解的相當絲滑。
不止是皮卡丘,你還可以用用下面這段看起來要素過多的 Prompt,來生成一個馬裏奧大叔進火車站的視頻:
The video shows a bustling train station filled with a diverse crowd of passengers eagerly waiting for their trains. The camera sweeps across the scene, capturing the lively atmosphere. Super Mario, a stout Italian character with a round face, dons his iconic red hat and blue overalls. The camera closely follows Mario as he steps confidently onto the platform, his face beaming with excitement.. The video is in a realistic style.
視頻中,火車站熙熙攘攘,各色乘客焦急地等待火車。鏡頭掃過整個場景,捕捉到熱鬧的氣氛。當火車緩緩駛近站台時,鏡頭緊跟身材魁梧、臉龐圓潤的意大利人物超級馬裏奧,他戴着他标志性的紅帽子和藍色工作服,自信地走上站台,臉上洋溢着興奮的笑容。視頻的風格很寫實。
畫面裏有着鮮明的主角馬裏奧,背後熙熙攘攘的人群每個人都有各自不同的動作細節,而在馬裏奧沿着鏡頭向前走的同時,動畫人物與真實環境相交的邊緣處理的也非常清晰幹淨,與此同時,火車也進站了。
如果卡通人物已經滿足不了你的胃口了,那我們來看看 PixVerse V3 在大場面上的發揮。
——關鍵詞:巨龍入睡。
完整的 Prompt 是這樣的:
Steadycam tracking shot of a dragon diving into the water, the monk raises his arms in appreciation.
由斯坦尼康穩定器跟蹤拍攝:一條龍潛入水中,僧人舉起雙臂以示贊賞。
雖然視頻中仍然缺乏 Prompt 中提到的一些細節,但總體上無論是從運鏡的連貫程度,還是用陰郁的影調來微妙的表現畫面張力的能力,以及對遠景的怪獸、前景的廢棄汽車的刻畫,PixVerse V3 的視頻生成能力都已經開始逼近電影級的畫面質感。
除了文生視頻,此次 PixVerse V3 也展現了優秀的圖生視頻能力。
圖生視頻的想象力可就大了,你可以試試找一張帥氣的美國西部電影海報,加一段 Prompt,讓他做一些「離譜」的事——比如碰到了一把質量不太好的左輪槍:
Prompt 是這樣的:
The pistol misfires with black smoke, which makes the man's face dirty.
手槍啞火,冒出黑煙,弄髒了男子的臉。
PixVerse V3 在文生視頻和圖生視頻能力上給人最鮮明的感受,就是它無比接近普通人日常生活中的興趣點。事實上,除了專業的視頻創作相關從業者,沒有太多人有用 AI 視頻軟件雕刻一段完美影視作品的需求。反而更多剛用上視頻生成能力的人,他們的好奇心在于這個能力能不能和真實世界甚至自己玩在一起。比如把喜歡的卡通形象引入自己每天出入的場合,甚至把自己變成鋼鐵俠之類的動漫人物。
AI 視頻産品目前遇到的困局,很多都是因爲陷在技術能力的自嗨裏,而用戶的身影消失了。在這個文生視頻技術剛剛嶄露頭角的階段,可能更大多數的普通人所中意的,首先是一個足夠靠近自己,又足夠親和的 AI 視頻産品。
從這個角度上來看,當下的 PixVerse V3 或許是那個把用戶心思猜的最準的産品。
PixVerse V3 的驚豔除了歸功于 PixVerse V3 背後 AI 視頻大模型的能力叠代之外,其在提示詞理解能力上的優化也功不可沒,相信看到上面這幾個 Prompt 示例,細心的人已經看出來了。
" 主體 + 主體描述 + 運動 + 環境 " 是一個讓 AI 視頻生成時能最大可能發揮效用的 Prompt 公式,相比 V2.5,現在你可以對 PixVerse V3 增加一個「鏡頭描述」的維度。
當然,除了遵循這個公式,Prompt 需要盡可能詳細描述人物的動作,避免太過簡單的描述。
同時,PixVerse V3 在輸出視頻的選擇上也更加豐富,在輸出視頻的格式上 PixVerse V3 支持包括 16:9、9:16、3:4、4:3、1:1 在内的多種視頻比例,風格化功能也在本次版本更新後得到升級,現在文生視頻和圖生視頻兩種模式同時支持動漫、現實、粘土和 3D 四種風格選擇。
一句話來說就是,這次 PixVerse V3 不僅變強了,它甚至想要把産品說明說一行行交到你手上。
社交平台 X 上,很多 AI 産品的關注者已經開始上手 PixVerse V3,比如粉絲衆多的 Pierrick Chevallier。他甚至整理了一個專門的帖子來展示自己用 PixVerse V3 生成的視頻。除了強大的生成能力以外,吸引人眼球的是他在其中展示了很多非常「萬聖節味兒」的視頻。
這個萬聖節,讓 PixVerse V3 來「搞效果」
一個足夠有趣的 AI 視頻産品的破圈,除了要有足夠的技術能力支撐,也需要一個好的契機。說起來 PixVerse V3 的發布也算得上恰逢其時。
11 月 1 日就是萬聖節,10 月末的此時此刻,正是年輕人一年一度的想象力巅峰期。結合萬聖節主題,PixVerse V3 一并發布了一系列萬聖節主題模闆,讓你能夠用 AI 對身邊的一切「施法」。
此次 PixVerse V3 發布的萬聖節主題模闆總共有 8 個,其中有一類主打的是「大變活人」。
比如無中生有的在城市裏變出一隻怪獸。
除了這種大場面,PixVerse V3 可以直接讓一張照片裏的的元素「活」起來,比如讓《我在雨中等你》中的那隻小狗從照片裏真實的走出來:
小狗起身前甚至還有個擡頭的自然動作。而從照片裏走出後,原來的照片隻留下一片平靜的草坪,整個效果還是挺驚豔的。
這個模版也有更打開想象力的玩法。比如,能不能讓達芬奇筆下的維特魯威人從那個框住他的圈裏走出來?
類似這樣:
萬聖節能拿出這麽一個節目也足夠驚豔全場了。
這次 PixVerse V3 爲萬聖節準備的第二類模版,走的是抽象路線。
比如讓一個鐵盒站起來逃跑:
或者把一輛保時捷打散,變成一堆積木:
當然,這次 PixVerse V3 的模版中也有很多更有萬聖節味兒的效果可以玩,比如給人物照帶上一頂巫師帽,然後動起來,就像這樣:
這些萬聖節模版包含在 PixVerse V3 全新上線的 Effect 功能中。使用起來很簡單,上傳圖片後,選擇你想要的效果點擊即可進行生成,這中間不需要再費心思輸入 Prompt 了,對一門心思都想着萬聖節的人來說非常友好。
而此次 PixVerse V3 顯示了更強的多模态生成能力,在本身文生視頻以及圖生視頻的基礎上,PixVerse V3 現在可以讓生成的視頻帶上用戶想要的聲音内容,并且如果原本的視頻長度不夠長,PixVerse V3 現在有能力對原視頻進行進一步的延續創作。
這些多模态生成能力也變成了與 Effect 一同在 PixVerse V3 首發的兩個新功能。第一個功能是能爲視頻生成多語言人物聲音同步的對口型功能 Lipsync。
Lipsync 功能允許用戶在生成的視頻基礎上,自己輸入輸入文案或上傳音頻文件,然後 PixVerse 會自動根據文案或音頻文件内容,對視頻中的人物口型進行适配。目前 Lipsync 能夠支撐 30 秒的視頻長度,可以對口型的語言已經包括了英語,漢語,法語,日語四種。
另一個功能是視頻延長 Extend,或者可以理解爲故事續寫。
針對現在生成視頻長度過短的問題,在 PixVerse V3 中用戶可以選擇已經生成的視頻,點擊「Extend」按鈕,輸入與視頻如何進一步發展相關的提示詞,點擊「create」,原視頻就會照着拟定的方向實現情節遞進,同時保持人物和動作高度連貫一緻。
多模态視頻生成能力的加入,PixVerse V3 現在能夠生成叙事量更大、視聽效果更佳的 AI 視頻,AI 視頻創作的邊界也進一步被拓寬。
做一個真正能玩起來的 AI 視頻産品
「當普通用戶也能用起來時,才是 ChatGPT 時刻。」愛詩科技創始人兼 CEO 王長虎在今年 4 月的一次采訪中說道。
過去兩年,大模型技術透出的每一絲新的微光都會轉變成一場場關于生産方式新的宏大叙事,仿佛人類的生活會在短時間内被完全颠覆。但到目前爲止,這一切還并沒有發生。
與此同時,Sora 帶來的興奮以及過于宏大的技術想象力讓整個 ai 視頻産品領域逐漸失焦,找不到與大衆生活的連接處。所以一方面 runway 這種定位是專業工具的 AI 視頻産品由于過高的使用門檻而難以破圈,而定位更偏大衆的産品則陷入一種在衆人嘗鮮後的「閱後即焚」困境,用戶在新鮮勁過了之後難以留存,産品缺乏明确而具體的發展思路,于是隻好向着「濾鏡化」「特效化」的簡單邏輯下沉。
換句話說,AI 生成能力巨大的的開放性讓 AI 視頻這個領域目前幾乎所有産品都像是某種半成品,生成内容的随機性和不可控被包裝成一種新奇體驗,也同時意味着其難以在一種具體而具有持續性的場景中被使用起來。
就像當外界被 Sora 氣球人的生成能力所驚豔的時候,帕特裏克 · 塞德伯格則被 Sora 内容生成一緻性的缺乏所困擾,他抱怨氣球的顔色在每次生成中都會改變,而這樣的瑕疵意味着大量後期制作的工作量仍然不可避免。類似的問題很多,這也是爲什麽雖然好萊塢一年前已經開始爲大模型對電影工業潛在的颠覆可能罷工,但一年後,sora 仍然無法真正進入影視的工作流。
眼下 AI 視頻産品也都或多或少的陷入了類似的處境——雖然 AI 視頻生成能力已經讓所有人興奮了很長一段時間,但 AI 視頻生成産品仍然是一場看起來很美的「賣家秀」。
在新的技術洪流面前,一個産品要保持「具體」很難。但愛詩科技從最初的 PixVerse 網頁版到現在 PixVerse V3 傳遞出來的卻是一條難得的清晰有序的叠代路徑。
今年 1 月,愛詩科技正式發布了文生視頻産品 PixVerse 網頁版。但當時包括 PixVerse 在内,幾乎所有的文生視頻産品都會遇到的問題是生成形象的不可控,這意味着用戶無法持續性的圍繞統一角色來生成視頻内容。3 個月後,PixVerse 網頁版搭載了基于自研視頻大模型開發的 C2V(Character to Video)功能,通過精确提取人物特征來鎖定角色,初步解決 AI 視頻創作中的一緻性難題。
把視頻中的「角色」固定下來之後,PixVerse 把之後的叠代重心放在了生成内容中行爲的「可控」上。今年 6 月,愛詩科技發布 Magic Brush 運動筆刷,用戶可以通過對視頻畫面中内元素簡單的塗塗抹抹,來精确控制各個元素的運動及運動方向。7 月末 PixVerse V2 上線,産品中除了展現了足夠多對生成内容的控制能力,Prompt 難度也又了大幅下降,同時微調生成效果的手段則趨于豐富。
這又是一次意圖非常明确的叠代——「具體産品形态需要去試,但最終我們還是希望服務廣大普通用戶」,就像王長虎在此前一次采訪中所說。
在視頻生成能力還不能直接滿足普通用戶的需求時,服務專業創作者,基于新的内容生成範式去做下一代的工具是更優先的選擇。「當生産要素被技術囊括後——比如 AI 把拍攝時的演員、場景、攝像機取代了——這時候 AI 視頻生成能力就可以開始爲大衆所用,用戶的圈層會逐漸擴大,就會産生巨大的機會。」
此次 PixVerse 3V 開始嘗試推出更多與普通人生活相關聯的玩法,并且嘗試用 Prompt 來設定鏡頭,後者可以被看作是一種部分代替攝像機的嘗試。如此看來,愛詩科技對産品方向的打磨一直在一條很笃定的道路上。
在 AI 視頻生成這場以發散性爲美的技術浪潮中,愛詩科技的選擇是與整體的流勢相反,遠離宏大叙事,給出一個 AI 視頻産品可以怎麽玩的,最具體的方案。
隻有盡可能的讓人拿在手裏玩起來,AI 視頻應用才會從 Sora 所引領的一場「賣家秀」,過渡到生機盎然的「買家秀」。
PixVerse V3 的驚豔登場,或許就是這場 AI 視頻「降溫」背後,另一場積極變化的開始。
* 頭圖來源:PixVerse V3
本文爲極客公園原創文章,轉載請聯系極客君微信 geekparkGO