梵高大跳科目三，隻需文字+火柴人動效！可控視頻生成框架來了

馬躍投稿

量子位 | 公衆号 QbitAI

視頻生成還可以這麽玩？

來一個 " 火柴人 " 做做動作示範，再加文本描述，即可讓各種形象惟妙惟肖地跟着動起來。

比如男人在公園椅子上做遠眺姿勢：

鋼鐵俠街邊起舞：

蝙蝠俠也不閑着，水上打拳：

形象數量可以随意添加：

風格也能任意切換（上：新海誠，下：梵高）：

如此看下來，讓任意一個八杆子打不着的形象跳個科目三，也是簡簡單單了。

如上成果便是不久前入選了 AAAI 2024 的姿态全可控視頻生成框架：Follow-Your-Pose。

出自清華大學、香港科技大學、騰訊 AI Lab 以及中科院。

相關代碼已在 GitHub 攬獲 800 顆标星。

有網友驚歎，有了它：

TikTok/ 抖音的舞蹈将永遠花樣百出。

那麽以下，爲作者投稿内容，一起來看看它具體是如何做到的吧。

姿勢可控的角色視頻生成來了

現如今，生成文本可編輯和姿勢可控的角色視頻在創建各種數字人方面具有迫切的需求。

然而，由于缺乏一個全面的、具有成對的視頻 - 姿态 - 文本的生成數據集，從而使這項任務受到了限制。

在這項工作中，研究團隊設計了一種新穎的兩階段訓練方案，該方案可以利用易于獲得的數據集（即圖像姿勢對和無姿勢視頻）和預訓練的文本到圖像（T2I）模型來獲得姿勢可控的角色視頻。

具體來說，在第一階段，隻有姿态圖像對僅用于可控的文本到圖像生成。

團隊學習了一個零初始化的卷積編碼器來對姿态信息進行編碼。

在第二階段通過添加可學習的時間自注意力和改革後的跨幀自注意力塊，用無姿勢視頻數據集對上述網絡的運動進行微調。

在團隊新設計的支持下，該方法成功地生成了連續的姿勢可控的角色視頻，同時保留了預訓練的 T2I 模型的概念生成和合成能力。

具體來說，該兩階段訓練策略，可有效地從研究團隊提出的 LAION-Pose 數據集中學習圖像姿勢對齊，并從沒有姿勢注釋的自然視頻中學習時間相幹性。

在第一階段訓練中，隻有姿态編碼器 Ep 可以訓練來學習姿态控制。

在第二階段訓練中，隻有時間模塊是可訓練的，包括時間自注意力（SA）和跨幀自注意力。

在推理過程中，通過提供描述目标角色和相應外觀的文本以及表示運動的姿勢序列來生成時間連貫的視頻。

預訓練穩定擴散的大多數參數都被凍結，包括僞 3D 卷積層以及交叉注意力（CA）和前饋網絡（FFN）模塊。具體框架結構如下。

爲了進一步保持時間一緻性，研究團隊利用幀間自注意力（SA）來進行交叉幀處理。

不同的是，他們通過簡單地在 DDIM 的上一次采樣過程中重複使用每個時間步長的噪聲，來生成更長的視頻序列。

具體而言，假設每次采樣 T 幀，将最後 T 幀的噪聲添加到下一個 2 個循環中，作爲先驗知識。

需要注意的是，在整個去噪過程中，爲了确保生成的長視頻的時間一緻性，會将每個時間步長的噪聲添加到先驗知識中。

如框架圖所示，所提出的方法僅調整了用于視頻生成的幀間自注意力和時間自注意力。

通過以上兩階段的訓練，結合爲每個階段精心設計的可調節模塊，研究團隊所提出的方法可以從輕松獲得的數據集（例如人體和姿勢的圖像對以及随機視頻）中生成連續的姿勢可控視頻。

總結

這篇工作主要解決了生成文本可編輯且姿勢可控制的角色視頻的問題。

爲實現這一目标，作者重新設計和調整了預訓練的文本到圖像模型，因爲它具有強大的語義編輯和組合能力。

并設計了一個新的兩階段訓練方案，可以利用大規模的圖像姿勢對和多樣化的無姿勢數據集。

具體而言，在第一訓練階段，使用姿勢編碼器将姿勢信息注入網絡結構，并從圖像 - 姿勢對中學習，以實現姿勢可控的文本到圖像生成。

在第二訓練階段，研将圖像模型擴展爲 3D 網絡，從無姿勢視頻中學習時間上的連貫性。

通過研究團隊的幾項新設計，所得框架可以生成具有新穎創意和時間上連貫的視頻，同時保留原始 T2I 模型的概念組合能力。