粉色連衣裙、黑色大波浪的美女,驚恐轉身後,露出了一神似張宋小寶的嬌俏面龐。
微張的嘴唇,欲語還休。

美國的三好青年馬斯克,身着東北大花襖,站在微風陣陣的白宮前邊。
小手一揣,略帶局促地露出一抹拘謹、正派的微笑。

而另一邊,魔卡少女小櫻也正拉着隔壁的蕾姆,在三裏屯商場裏逛街。
當然了,世超知道見識過各種 P 圖軟件和 AI 技術的你。估計看到這些效果,也是輕輕一笑說:
早半年前,哥就見過這種效果了。
哥不僅能讓馬斯克換裝,就是讓他跳段舞,也是手拿把掐了。

但且慢,上面這些視頻的生成方法,可能跟你以前見過的都不一樣。
這個用的是生數科技聯合清華團隊推出的視頻模型 Vidu 1.5 ,這個模型有一個新的能力:多主體一緻性。

用大白話來說,就是我們可以上傳多張圖片來生成視頻。并且保證這些複雜的元素不會變形。
比如上傳角色、物體和地點的圖,它可以用你指定的這些元素,做出一條視頻來。

這樣我們在生成的時候,就可以自己設定人物、物體還有場景。
像馬斯克這條視頻,就是用了一張馬斯克的大頭照,一件花襖,還有一張白宮的圖片,生成出來的。
丢一句簡單的提示詞, Vidu 就可以複刻出一條以假亂真的視頻。讓馬斯克,穿上你給的大花襖,在白宮前秀一段。

這麽整的好處顯而易見,我們可以手動控制AI 生成的素材,讓視頻更合我們心意。
以前我們隻能扔一句話,或者扔一張照片,讓 AI 自由發揮。最後結果很容易就脫離我們的預期。
比如你直接說讓馬斯克穿着大花襖,它就會真的在馬褂上,畫幾朵大花。

如果 AI 的詞庫裏,就沒有大花襖這個東西。不論我們怎麽調整提示詞,最後都沒法生成出來。
可現在,你不用使勁憋提示詞了,隻需要閉眼甩一張圖。
之前還沒有視頻模型可以做到這樣,很多時候能把一張上傳的圖片處理明白,就已經相當得勁了。
所以, Vidu 這個模型一發布。外網的各種網友們,立馬就驚呼,然後開機上手了。

大家也可以直接打開 Vidu 的官方,上手試試看。不過,現在隻有三次的免費機會,後面每次試用就會需要消耗 4 個積分。
爲了給大家整個明白,世超試用了一天。大夥可以往下滑,看看我的效果,再決定要不要玩。
按照編輯部的約定俗成,咱們的吉祥物一般都是我第一個試的。
這回,我整了兩張火鍋戴頭盔的照片,又上傳了一張抹茶綠的雅迪電動車。
輸入提示詞:金毛犬在騎雅迪電動車。

大概幾十秒之後,帶着黑色防風鏡的火鍋,就這麽絲滑地騎上了小電驢。
連胸前藍色的挂飾,還有雅迪的橙色車标,都完整的保留了下來。這個一緻性效果還是挺驚豔的。
還貼心地加上了吐舌頭和搖尾巴的小細節。

雖然火鍋這個滑滑闆一樣的騎車動作,是肯定沒法上路的。
不過,因爲狗本來就不會騎電驢,咱們也不能強求。後面,世超換了張喬布斯的大頭照,這個效果就很可以了。
而且,我還特地上了點難度。讓喬布斯也和馬斯克一樣,穿上了咱們特色服飾軍大衣。

硬朗五官配上筆挺大衣,效果還是非常闆正的。
喬布斯應該也沒想到,自己有一天會坐上雅迪的橘色雅座吧。
雖然隻有正臉照,但是鏡頭轉到側方的時候,人物的特征( 比如小秃頭 )還是還原得挺精準。

不過,上面這些都還是單一的人物主體,外加一個場景或者物品。抓取起來還是比較簡單。
一般來說,我們加入的主體越多,大模型就可能抓取錯誤。
于是我試了一下上傳一張唐伯虎點秋香裏經典圖,然後要求把臉部替換成我給的另一張圖。

它從一堆人的背影裏,精準地找到秋香。讓她把臉緩緩轉過來,微微露出側臉。
雖然沒有全臉示人,但眉眼就足夠一眼丁真。

後面,我又加上了難度。
不僅要替換服裝,還要加上動作。讓語文課本上的李白和蔡徐坤來個對換:李白穿着背帶褲在打籃球。

這次, Vidu 給的效果就相當抽象了。
它直接給坤換了個畫風,整出了一個動畫版。雖說保留的格子褲花紋小細節,足以體現用心。
但這個李白 260 ° 水調大轉頭,畫面實在過于詭異了。也沒有完成我輸入的【 打籃球 】的指令。

在後面測試中,世超發現 Vidu 雖然能摳主體。但是,如果動作比較大,或者畫面變化比較多,就容易出現上面突然轉頭的小 bug 。
比如,讓它把胖虎的玩具人偶放在冰雪女王的手上。

它确實能處理多個主體,讓塑膠胖虎憑空變出來,而且,冰雪女王的動作和場景連貫性,基本可以以假亂真。
但是,換進去的胖虎的動作,就明顯有點小崩。在五秒裏,連續抽搐變形了數次。

在一下午的測試裏, Vidu 的生成效果總是時好時壞。
世超一直在上一秒驚豔,下一秒驚吓的反複中來來回回。
比如讓雷軍坐到問界的車裏揮手。雷軍就這麽水靈靈地掉到了車外面,而且,臉也早已經崩壞了。

但是,同時它又能完美地讓樂高國王,在城堡上舉起長劍,激昂演講。保持場景和人物,都連貫一緻。

崩多了之後,我甚至摸出了一些門道。如果你看完文章後,打算去試試,那麽在給主體照片的時候,最好找背景比較幹淨的圖片。
主體越好摳出來,生成的準确率就越高。
同時,給一個主體上傳多個角度的照片,也能讓他動起來更自然。因爲模型可以構建出一個更完整的人物。

雖然根據 Vidu 官方的說法,他們這次放棄了業界主流的 LoRA 微調的方法。因爲那種方法,很容易出現過拟合,就是在理解主體的過程中,會遺忘大量原先的知識。
所以,主體的動作和肢體很容易崩壞,難以控制。畫面裏東西越多,變化越多,就越容易失控。
而 Vidu 的新模型是用類似于大語言模型的技術,把所有輸入都處理成視覺數據,并和大語言模型一樣能 " 上下文記憶 " 地處理這些輸入數據。
這确實讓 Vidu 在多主體的處理上,邁出了一大步。
但與此同時,經過簡單測試後,世超覺得 Vidu 的這個技術還有很長一段路需要走。
其實, Vidu 暴露的問題跟早期的文成視頻很像。就是意思都到了,但是細節還不夠,效果不穩定,時不時抽一下風。
像這個電動車和公路場景,再怎麽切換鏡頭都沒有變形。就是運動的時候,人物出現了影分身。
指定圖片:初音未來、雅迪電動車和公路

如果你想用它完全替代視頻工作者的工作,世超覺得還是得等等。
但 Vidu 肯定是值得上手玩玩看的。
畢竟誰不想讓喜歡的角色穿上我們挑選的衣服,不想讓心意的 IP 角色或者明星,跨界同框一下呢。
撰文:star


