家人們,AI 做視頻這事今天又被推向了輿論的風口浪尖。
起因是有人在網上發布了這麼一隻小企鵝的視頻:
而這個近 50 秒視頻的誕生,靠的僅僅是6 句話!
陸陸續續的,網友們還在發布着這個 AI 的其它傑作:
這次給它投喂的提示詞也是極短,僅4 行:
如此 " 所寫即所得 "、絲滑連貫的視頻生成方式,也是令不少網友發出感慨:
未來已至。
甚至還有人開始 " 拉仇恨 ",說 AI 正在用各種方式摧毀行業……
然後就有很多人發問了:" 這又是哪家新搞的 AI 哇?"
不過眼尖的網友發現它其實是一位 " 老朋友 " 了——
谷歌去年 10 月份便發布的一個文本轉視頻(Text-to-Video)模型:Phenaki。
隻需一段提示詞,分分鐘可以生成長達兩分鐘的視頻。
而相比 Phenaki 剛發布的時候,谷歌又來了一波上新操作。
那麼我們現在就來一同看看這些新視頻吧 ~
打字就能生成的視頻
與以往 AI 生成的視頻不同,Phenaki 最大的特點便是有故事、有長度。
例如,我們再給這麼一段場景描述:
在一座未來感十足的城市裡,交通紛繁複雜,這時,一艘外星飛船抵達了城市。
随着鏡頭的拉近,畫面進入到了飛船内部;而後鏡頭沿着船内長廊繼續向前推進,直到看到一名宇航員在藍色的房間裡敲鍵盤打字。
鏡頭逐漸移向宇航員的左側,身後出現藍色海洋,魚兒們在水裡徜徉;畫面快速放大聚焦到一條魚的身上。
随後鏡頭快速從海裡浮出,直到看到摩天大樓高聳林立的未來城市;鏡頭再快速拉近到一撞大樓的辦公室。
這時,一隻獅子突然跳到辦公桌上并開始奔跑;鏡頭先聚焦到獅子的臉上,等再次拉遠時,這隻獅子已經幻化成西裝革履的 " 獸人 "。
最後,鏡頭從辦公室拉出,落日餘晖下鳥瞰這座城市。
想必不少友友們在讀這段文字過程中,腦中已經浮現相應的畫面了。
接下來,我們一起看看 Phenaki 生成的效果如何:
是不是和你腦補出來的畫面一緻呢?
總體來說,這個 AI 即便面對這種腦洞大開的場景提示詞,也是做到了無縫銜接的轉場。
也難怪網友們看完這段視頻後驚呼 "(科技)發展得真快啊 "。
而對于篇幅稍短的提示詞,Phenaki 就更不在話下了。
例如,給 Phenaki 投喂這樣一段文字:
一隻逼真的泰迪熊正在潛水;随後它慢慢浮出水面;走上沙灘;這時鏡頭拉遠,泰迪熊行走在海灘邊篝火旁。
沒看夠?那再來一段,這次換個主角:
在火星上,宇航員走過一個水坑,水裡倒映着他的側影;他在水旁起舞;然後宇航員開始遛狗;最後他和小狗一起看火星上看煙花。
而在谷歌更早發布 Phenaki 之際,還展示了向 Phenaki 輸入一個初始幀以及一個提示詞,便可以生成一段視頻的能力。
例如給定這樣一張靜态圖:
然後再給它 Phenaki 簡單 " 投喂 " 一句:白貓用貓爪觸摸攝像機。效果就出來了:
還是基于這張圖,把提示詞改成 " 一隻白貓打哈欠 ",效果就成這樣了:
當然,任意切換視頻整體風格也是可以 hold 得住的:
網友:視頻行業要被 AI 沖擊了嗎?
但除了 Phenaki 之外,谷歌當時還一道發布過 Imagen Video,能夠生成 1280*768 分辨率、每秒 24 幀的高清視頻片段。
它基于圖像生成 SOTA 模型 Imagen,展示出了三種特别的能力:
能理解并生成不同藝術風格的作品,水彩、像素甚至梵高風格
能理解物體的 3D 結構
繼承了 Imagen 準确描繪文字的能力
更早的,Meta 也發布了 Make-A-Video,不僅能夠通過文字轉換視頻,還能根據圖像生成視頻,比如:
将靜态圖像轉成視頻
插幀:根據前後兩張圖片生成一段視頻
根據原視頻生成新視頻
……
對于這如 " 雨後春筍 " 突然冒出的生成視頻模型,不免會讓有些人擔心:
當然也有人認為現在時機還未到:
0-1 總會很快,1-100 還是會很漫長。
不過已經有網友在期待靠 AI 拿奧斯卡獎了:
AI 要多久才能成為新的視頻編輯器,或者拿下奧斯卡?
原理介紹
再說回 Phenaki,有不少網友都比較好奇它是如何通過文字生成這麼絲滑的視頻的?
簡單來說,Phenaki 相較于以往的生成視頻模型,它更注重時間長度任意性和連貫性。
Phenaki 之所以能夠生成任意時間長度的視頻,很大程度上要歸功于新的編碼器 - 解碼器架構:C-ViViT。
它是 ViViT 的一個因果變體,能夠将視頻壓縮為離散嵌入。
要知道,以往獲取視頻壓縮,要麼就是編碼器不能及時壓縮視頻,導緻最終生成的視頻過短,例如 VQ-GAN,要麼就是編碼器隻支持固定視頻長度,最終生成視頻的長度不能任意調節,例如 VideoVQVAE。
但 C-ViViT 就不一樣了,它可謂是兼顧了上面兩種架構的優點,能夠在時間和空間維度上壓縮視頻,并且在時間上保持自回歸的同時,還可以自回歸生成任意長度的視頻。
C-ViViT 可以使模型生成任意長度的視頻,那最終視頻的邏輯性又是怎麼保證的呢?
這就得靠 Phenaki 另外一個比較重要的部分:雙向 Transformer。
在這其中,為節省時間,采樣步驟是固定的,并且在處理文本提示的過程中,能同時預測不同的視頻 token。
這樣一來,結合前面提到的,C-ViViT 能夠在時間和空間維度上壓縮視頻,壓縮出來的 token 是具有時間邏輯性的。
也就是說,在這些 token 上經過掩碼訓練的 Transformer 也具備時間邏輯性,最終生成的視頻在連貫性自然也就有了保證。
如果還想了解更多關于 Phenaki 的東西,可以戳這裡查看。
Phenaki:
https://phenaki.github.io
參考鍊接:
[ 1 ] https://phenaki.video/
[ 2 ] https://phenaki.research.google/
[ 3 ] https://twitter.com/AiBreakfast/status/1614647018554822658
[ 4 ] https://twitter.com/EvanKirstel/status/1614676882758275072