AI 拍視頻,竟然已經絲滑到這個程度了嗎?
輸入一段視頻,念上一段 " 咒語 ",AI 瞬間就能秒懂,并當場給你把視頻重畫一遍:
不僅完美 hold 住各類風格,最關鍵的是,幀幀絲滑流暢。
就連建築物這種細節較多的視頻,也幾乎看不出 "AI 出品 " 的 bug:
目前,無論是拍視頻還是制作動畫,依靠的都是 " 關鍵幀 "。如果幀與幀之間聯系不緊密,就會出現這種詭異的 "閃爍畫風" ——
而這也是 AI 生成視頻最大的瓶頸之一。
現在,來自南洋理工大學的團隊,終于解決了這個問題,研究在推特上掀起了不小熱度:
那麽,這究竟是如何做到的?
如何讓 AI 拍的視頻不 " 閃爍 "?
AI 生成視頻會 " 閃爍 ",本質上是前後幀不連貫導緻的。
舉個例子,這是同一個視頻中截取的兩幀畫面:
用 AI 根據這兩幀 " 重繪 " 圖像,乍一看問題不大,細節上卻有不少差異。
例如,一幀生成的人物頭上有 " 金色發帶 ",另一幀中卻消失了:
這樣一來,看似 AI 生成的幾十幀圖像風格差不多,連起來細節差異卻非常大,視頻也就容易出現閃爍現象:
爲此,研究人員提出了一種新框架,,核心是提升 AI 生成視頻時幀與幀之間的連貫性。
這個框架包含關鍵幀翻譯(key frame translation)和完整視頻翻譯(full video translation)兩部分。
第一部分基于擴散模型生成關鍵幀,基于跨幀約束加強這些關鍵幀之間的一緻性;第二部分則通過基于時間感知的匹配算法将其他幀與關鍵幀 " 連接 " 起來。
框架的核心,在于第一部分。
研究人員給這部分提出了一種新的分層跨幀一緻性約束方法,在原視頻基礎上,利用光流來約束幀與幀之間的關系。
其中,第一幀相當于整個視頻的 " 錨點 ",用于控制視頻的整體走向;後續的每一幀,則都會以前一幀作爲參考,防止生成的圖像偏離最初的風格、形狀、紋理和顔色等。
至于視頻生成模型,核心采用的則是 Stable Diffusion+ControlNet 的組合,但經過了改進。
如下圖所示,紅色虛線是原本 Stable Diffusion 等擴散模型采樣過程,黑色線條則是經過調整後的過程:
當然,在不同的采樣階段,跨幀約束也不一樣,包括形狀感知、像素感知等。
相比之前的 AI 視頻生成模型,這個框架最大的優勢在于,當輸入一個新視頻的時候,它不需要再用這個視頻材料重新進行訓練,換而言之就是零樣本學習。
隻需要輸入一段提示詞 + 一段視頻,框架就能自動将視頻 " 翻譯 " 出你想要的效果。
例如,這是團隊利用改進後的框架,重新生成的一段相同風格視頻,和改進前的擴散模型相比,幾乎看不出閃爍了:
14 秒生成一張關鍵幀
所以,生成一段視頻是否需要很長時間?
至少從生成幀的效率來看,速度還是不慢的,其中關鍵幀和 Stable Diffusion 出圖的速度差不多,平均在14.23 秒左右;非關鍵幀就非常快了,每幀隻需要1.49 秒。
如果視頻不長、甚至隻有十幾幀的話,不到一分鍾就能搞定一段視頻的轉換。
作者們将這個新框架和之前的幾類文生視頻框架進行了對比,包括 FateZero、vid2vid-zero、Pxi2Video 和 Text2Video-Zero 等,顯然新框架目前是最流暢、鬼影也最少的:
不僅僅是單純的 " 視頻翻譯 ",作者們還展示了提示詞對于視頻生成的控制效果。
例如在相同輸入下,隻要更改一段提示詞中的 " 關鍵字 ",AI 就能在幾乎不改動其他元素的情況下,生成一段新的視頻,例如換個發型、換種風格,或是将狗頭換成狐狸頭:
除此之外,作者們還請來了 23 名志願者,對新框架生成的視頻質量進行了綜合評分,評估指标有三個,分别是提示詞和輸入幀的關聯度、時間一緻性和視頻整體質量。
結果顯示,這個框架在 " 人類評分 " 中均取得了不錯的水平:
一作北大校友
四位作者均來自南洋理工大學。
一作楊帥,南洋理工大學助理教授,本科和博士畢業于北京大學,目前的研究方向是基于人像的編輯、文本風格化、圖像翻譯等。
周弈帆,南洋理工大學研究工程師,本科畢業于北京理工大學,拿過 ACM-ICPC 金牌,研究方向包括文本挖掘、基于機器學習重建入射光場等。
劉子緯,南洋理工大學助理教授,香港中文大學博士,研究方向是計算機視覺、機器學習和計算機圖形學等。
Chen Change Loy,南洋理工大學和香港中文大學副教授,他的研究興趣集中在計算機視覺和深度學習方向,包括圖像、視頻恢複和生成,以及表征學習等。
目前這個項目的代碼還沒開源,不過論文表示 " 會有的 "。
實測效果如何,我們可以期待一波。
項目地址:
https://anonymous-31415926.github.io/
論文地址:
https://arxiv.org/abs/2306.07954