快手發力 AI 視頻,參與開發了一個智能 " 導演 "。
Direct-a-Video,成功解耦 AI 生成視頻中物體運動和攝像機運動,讓靈活性和可控性大大增強!
不信,來欣賞一波作品。
短視頻中的鏡頭移動方向全憑導演指令,水平(X 軸)、垂直(Y 軸)、變焦必須精準:
AI 導演還上演了一出炫技,鏡頭移動方向混合水平、垂直:
混合水平、變焦運動效果也可以
此外,導演還要求視頻中的每個 " 演員 " 都能按照繪制的框框運動:
達到鏡頭移動和演員運動合一的效果。
比如,大熊原地太空漫步,鏡頭水平和垂直移動實現整體視頻運動效果:
當然大熊的位置也可以通過繪制帶箭頭的框框,從一個地方移動到另一個地方:
甚至還能同時分别控制多個 " 演員 " 的移動路徑:
這就是香港城市大學、快手科技、天津大學研究團隊共同提出的Direct-a-Video文本 - 視頻生成框架的效果展示。
怎麽做到的?
具體來說,Direct-a-Video 分爲兩個闆塊——
在訓練階段,學習相機移動控制;在推理階段,實現物體運動控制。
在實現相機移動控制時,研究人員采用了預訓練的 ZeroScope 文本到視頻模型作爲基礎模型,并引入新的可訓練時間自注意力層(相機模塊),将由 Fourier 編碼和 MLP 映射的平移和變焦參數嵌入注入其中。
訓練策略是在有限數據上,使用數據增廣的自監督訓練方式學習相機模塊,無需人工運動标注。
其中數據增廣通俗來講,就是添加已有數據的略微修改版,或從現有數據中創建新的合成數據來增加數據量:
經過自監督訓練後,該模塊可以解析相機運動參數實現定量控制。
實現物體運動控制時,不需要額外的數據集和訓練,隻需用戶簡單繪制首末幀框和中間軌迹即可定義物體運動。
簡單來說,直接在推理時采用基于像素的自注意力增強和抑制,分時階段調控每幀内各對象的自注意力分布,從而使對象生成到用戶通過一系列框指定的位置,實現物體運動軌迹控制。
值得一提的是,相機移動控制和物體運動控制互相獨立,允許單獨或聯合控制。
Direct-a-Video 效果如何?
研究人員将 Direct-a-Video 與多基準對比驗證了該方法的有效性。
相機移動控制評估
Direct-a-Video 與 AnimateDiff 和 VideoComposer 對比結果如下:
Direct-a-Video 在生成質量、相機移動控制精度上均優于基線:
物體運動控制評估
Direct-a-Video 與 VideoComposer 和 Peekaboo 對比,驗證了本方法在多物體及運動場景下的控制能力。
在生成質量和物體運動控制精度上優于 VideoComposer:
網友看到效果直呼因錘斯汀:
除 Runway 外,又多了一種新選擇。
PS:
,塗哪兒動哪兒,同樣可調整參數控制運動方向:
參考鏈接:
[ 1 ] https://x.com/dreamingtulpa/status/1756246867711561897?s=20
[ 2 ] https://arxiv.org/abs/2402.03162
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~