後期狂喜了家人們~
現在,隻需一張圖片就能替換視頻主角,效果還是如此的絲滑!
且看這個叫做 "VideoSwap" 的新視頻編輯模型——
小貓一鍵變小狗,基操~
如果原物體本身扭動幅度大一些?也完全沒問題:
細看倆者之間的運動軌迹,給你保持得是一毛一樣:
再如果,替換前後的物體形狀差别較大呢?
例如車身較高的 SUV 換更長的超跑,大郵輪換小白船。
呐,也是一整個完美替換,基本看不出任何破綻:
對比谷歌今年 2 月發的同類視頻替換模型 Dreamix:
不得不說,現在這技術進步真是肉眼可見啊~
那麽,它是如何做到的呢?
方法也很有意思。
隻需幾個語義點,拽一拽就 OK
不管是風格轉換還是主題 / 背景轉換,這種視頻編輯任務的主要挑戰都是如何從源視頻中提取運動軌迹傳輸到新視頻、覆蓋到新元素上,同時确保時間一緻性。
此前的模型(原理包括編碼源運動、使用注意力圖、光流等)大多數顧此失彼,要麽在時間一緻性上做的不好,要麽會嚴格限制形狀變化。
在此,VideoSwap 提出使用少量語義點來描述物體的運動軌迹。
如下圖所示,飛機的運動軌迹就可以通過機翼、機頭和機尾的 4 個點來表示。
而在替換成直升機時,我們可以删除兩個點,在隻保留機頭和機尾來對齊運動軌迹的同時,免除形狀約束,讓體型不一樣的直升機得以替換。
除了删除語義點,它還能拖拽。
像開頭展示的這個 SUV 變超跑,由于車身變長了,我們不對語義點進行處理,超跑就變形了:
對此,我們隻要将 SUV 車頭和車尾的幾個點稍加挪動就 OK:
下面這個天鵝的替換視頻也是經過了語義點拖拽:
那麽具體來說,VideoSwap 是如何操作的呢?
從它的 pipeline 來看,簡單來說,VideoSwap 也是基于擴散模型(潛擴散)。
它首先用 VAE 編碼器對源視頻進行編碼,獲得潛空間表示;然後用 DDIM 反演将它變換回有噪聲的表示。
接着用文本提示中的源主題(例如貓)替換目标主題(狗),并使用 DDIM scheduler 進行去噪。
在這個去噪過程中,就可以引入語義點對應關系來引導目标主題遵循原來的運動軌迹進行生成了。
最後,爲了保留背景,作者在此還采用了一個潛混合的概念。
此外,他們還通過将視頻運動層集成圖像擴散模型中,來确保結果的時間一緻性。
這裏的關鍵點之一就是 VideoSwap 中的語義點提取和注冊(register)pipeline。(" 注冊 " 是指把語義點安插到源視頻)
首先它需要我們在關鍵幀中标出關鍵語義點,然後再從視頻中提取所标語義點對應軌迹的 embedding。
接下來在語義點匹配中,embedding 由多個 2 層可學習 MLP 投射,并根據其坐标位置放置到空特征中,然後逐元素添加到擴散模型中作爲運動引導。
至于用戶拖動語義點後還可以讓視頻保持很好的一緻性,這裏用到的技術則是基于分層神經圖譜(LNA)的點位移傳播。
通過被訓練過的 LNA,用戶拖動産生的位移就能通過它的規範空間一緻地傳播到每一幀之中。
最後,作者表示:基于以上這些方法,VideoSwap 通過大量測試,最終取得了 SOTA 成績,成爲目前最好的視頻變換模型。
這是它和一些主流方法的效果對比:
目标是把飛機變直升機。
可以看到,除了 VideoSwap,絕大多數方法都隻在機頭部分往直升機的方向靠攏,不細看都發現不了,并且有的還伴随着明顯的閃爍和僞影。
作者介紹
VideoSwap 由新加坡國立大學和 Meta 合作完成。
一作 Yuchao Gu 爲新加坡國立大學博士生,此前碩士畢業于南開大學,他的研究方向正是 AIGC,尤其爲視頻生成爲主。
他同時也是 Meta GenAI 方向的實習生。
通訊作者爲新加坡國立大學助理教授 Mike Z. Shou,他此前是 Facebook AI 的研究員。
參考鏈接:
https://arxiv.org/abs/2312.02087
https://videoswap.github.io/
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~