字節和浙大聯合研發的項目Loopy火了!
隻需一幀圖像,一段音頻,就能生成一段非常自然的視頻!
研究團隊還放出了 Loopy 和同類應用的對比視頻:
網友下場齊誇誇:
Loopy 背後的技術有點牛哦!感覺互動媒體有新未來了!
前途無量奧!
真這麽牛?咱們一起來看一下!
Loopy 的生成效果
研究團隊放出了一些 DEMO 視頻,内容腦洞跨度有點大!
比如讓小李子唱《黑神話》靈吉菩薩的陝北說書(高音時還會皺眉):
讓兵馬俑滿口英倫腔:
蒙娜麗莎張口說話:
梅梅自帶 Bgm 說古裝台詞(甚至還有挑眉的小動作):
狼叔的側顔照也難不倒它:
歎息聲的細節也能處理得很好:
真人肖像的效果也很自然(甚至說話時眼睛還會順勢看向其他方向):
Loopy 如何 " 告别割裂感 "?
看完這些毫無違和感 DEMO 視頻,咱們來研究一下 Loopy 是如何生成這類視頻的:
總的來說,Loopy 是一個端到端的音頻驅動視頻生成模型。
它的框架可以由四部分構成,分别是:
ReferenceNet:一個額外的網絡模塊,它複制了原始 SD U-Net 的結構,以參考圖像的潛在表示作爲輸入,來提取參考圖像的特征。
DenoisingNet:一個去噪的 U-Net,負責從噪聲輸入生成最終的視頻幀。
在 DenoisingNet 的空間注意力層中,ReferenceNet 提取的參考圖像特征會與 DenoisingNet 的特征在 token 維度上進行拼接。
這樣做是爲了讓 DenoisingNet 能夠選擇性地吸收 ReferenceNet 中與當前特征相關的圖像信息,從而在生成過程中保持圖像的視覺一緻性。
簡單來說,通過結合這兩個網絡的特征,DenoisingNet 能夠更好地利用參考圖像的細節,提升生成結果的質量和連貫性。
Apperance:Loopy 的外觀模塊,主要接收參考圖像和運動幀圖像,然後将它們壓縮成特殊的數字編碼 ( 潛在向量 ) 。
運動幀的潛在向量經過 " 時間序列模塊 " 處理,與參考圖像的潛在向量拼在一起。這樣就融合了參考信息和動作信息。
然後将拼接後的潛在向量輸入 ReferenceNet 模塊中,生成一張特征圖,标注着重要的視覺信息,方便供後續去噪模塊使用。
Audio:Loopy 的音頻模塊。模型先是使用 Wav2Vec 網絡提取音頻特征,并将每層的特征連接起來,形成多尺度音頻特征。
然後對于每一幀視頻,将前兩幀和後兩幀的音頻特征連接,形成一個包含 5 幀音頻特征的序列,作爲當前幀的音頻信息。
最後在每個殘差塊中,使用 " 交叉注意力 " 機制,将音頻特征與視覺特征結合,計算出一個關注的音頻特征,并将其與視覺特征相加,生成新的特征。
值得一提的是,模型中也涉及到了一個 Audio2Latent 模塊,這個模塊可以将音頻信息映射到共享的運動潛在空間,進一步幫助模型理解音頻與視頻中人物動作之間的關系。
研究團隊的實驗結果如下:
One more thing
值得一提的是,在 Loopy 之前,字節和浙大就已經聯合研發出了一款類似的項目CyberHost。
但與 Loopy 不同的是,CyberHost 是一個端到端音頻驅動的人類動畫模型。
團隊同樣也放出了 DEMO 視頻:
Loopy 和 CyberHost 的相關鏈接都已附上,感興趣的小夥伴們可以了解一下 ~
Loopy 論文地址:arxiv.org/pdf/2409.02634
Loopy 項目地址:https://loopyavatar.github.io/
CyberHost 論文地址:https://arxiv.org/pdf/2409.01876
CyberHost 項目地址:https://cyberhost.github.io/