國産AI導演賊6，短視頻鏡頭和物體各動各的

快手發力 AI 視頻，參與開發了一個智能 " 導演 "。

Direct-a-Video，成功解耦 AI 生成視頻中物體運動和攝像機運動，讓靈活性和可控性大大增強！

不信，來欣賞一波作品。

短視頻中的鏡頭移動方向全憑導演指令，水平（X 軸）、垂直（Y 軸）、變焦必須精準：

AI 導演還上演了一出炫技，鏡頭移動方向混合水平、垂直：

混合水平、變焦運動效果也可以

此外，導演還要求視頻中的每個 " 演員 " 都能按照繪制的框框運動：

達到鏡頭移動和演員運動合一的效果。

比如，大熊原地太空漫步，鏡頭水平和垂直移動實現整體視頻運動效果：

當然大熊的位置也可以通過繪制帶箭頭的框框，從一個地方移動到另一個地方：

甚至還能同時分别控制多個 " 演員 " 的移動路徑：

這就是香港城市大學、快手科技、天津大學研究團隊共同提出的Direct-a-Video文本 - 視頻生成框架的效果展示。

怎麽做到的？

具體來說，Direct-a-Video 分爲兩個闆塊——

在訓練階段，學習相機移動控制；在推理階段，實現物體運動控制。

在實現相機移動控制時，研究人員采用了預訓練的 ZeroScope 文本到視頻模型作爲基礎模型，并引入新的可訓練時間自注意力層（相機模塊），将由 Fourier 編碼和 MLP 映射的平移和變焦參數嵌入注入其中。

訓練策略是在有限數據上，使用數據增廣的自監督訓練方式學習相機模塊，無需人工運動标注。

其中數據增廣通俗來講，就是添加已有數據的略微修改版，或從現有數據中創建新的合成數據來增加數據量：

經過自監督訓練後，該模塊可以解析相機運動參數實現定量控制。

實現物體運動控制時，不需要額外的數據集和訓練，隻需用戶簡單繪制首末幀框和中間軌迹即可定義物體運動。

簡單來說，直接在推理時采用基于像素的自注意力增強和抑制，分時階段調控每幀内各對象的自注意力分布，從而使對象生成到用戶通過一系列框指定的位置，實現物體運動軌迹控制。

值得一提的是，相機移動控制和物體運動控制互相獨立，允許單獨或聯合控制。

Direct-a-Video 效果如何？

研究人員将 Direct-a-Video 與多基準對比驗證了該方法的有效性。

相機移動控制評估

Direct-a-Video 與 AnimateDiff 和 VideoComposer 對比結果如下：

Direct-a-Video 在生成質量、相機移動控制精度上均優于基線：

物體運動控制評估

Direct-a-Video 與 VideoComposer 和 Peekaboo 對比，驗證了本方法在多物體及運動場景下的控制能力。

在生成質量和物體運動控制精度上優于 VideoComposer：

網友看到效果直呼因錘斯汀：

除 Runway 外，又多了一種新選擇。

PS：

，塗哪兒動哪兒，同樣可調整參數控制運動方向：

參考鏈接：

[ 1 ] https://x.com/dreamingtulpa/status/1756246867711561897?s=20

[ 2 ] https://arxiv.org/abs/2402.03162

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~