字節最新技術一鍵「遷移」表情神态，人人都是演技派

近日，字節跳動和清華大學在 GitHub 上聯合推出了一款最新的人像動畫技術「X-Portrait 2」。

具體來講，X-Portrait 2 是一款「生成式人像轉移模型」，其使用方法非常直觀和簡單：用戶隻需要提供一張靜态肖像圖和一段含有表情變化的「表演」視頻，這個技術就能一鍵将表情「遷移」至肖像上面，從而使前者也「動起來」。

就像下面這樣：

可以看到，左下角是「靜态肖像」，右下角則是「表演視頻」，而 X-Portrait 2 的功能就是讓左邊的角色做出同右邊人物幾乎一模一樣的表情。

除了「表情」以外，就連「神态」也幾乎是像素級複刻：

眉眼和笑容之中所包含的「狡黠」和「頑皮」，全部都精準地呈現出來了。

頭部扭動幅度較大的情況下，X-Portrait 2 也完全可以勝任，表情也并未失真：

一個比較「務實」的使用場景，是它可以用來「對口型」，有時可以配合後期修改台詞的需要：

不僅複刻精準，并且也足夠流暢自然。發布者也因此将其稱爲「極具表現力的肖像動畫」。

顯然，這個模型能夠實現跨風格和跨領域的表情轉移，覆蓋寫實肖像和卡通圖像；并且适應性較強，能夠用于包括現實世界的故事講述、動畫角色的呈現、虛拟代理以及其他視覺效果。

在電影或者動畫的後期特效制作方面，X-Portrait 2 無疑大大簡化了現有的動作捕捉、角色動畫和内容創作流程。

相較于其原型 X-Portrait，X-Portrait 2 的升級和創新謂之「進化」都不爲過。

X-Portrait 2 采用了一個更先進的表情編碼器，這個編碼器在大規模數據集上進行訓練，其能夠更精确地捕捉和再現人物的微妙表情，包括嘟嘴、鼓腮和皺眉等細節，還原了表情的複雜性，并提升了其真實感。

同時，X-Portrait 2 實現了外觀和動作的有效分離，這意味着在遷移表情時，原始圖像的外觀特征得以保留，表情變化不會影響人物的基本面貌，提高了動畫的自然程度和一緻性。

值得一提的是，X-Portrait 2 還創新地引入了生成式擴散模型，這種模型能夠處理不同視角下的表情變化，生成更加流暢和真實的動畫效果，解決了傳統方法在視角變化時可能出現的表情不協調問題。

此外，X-Portrait 2 還增強了跨領域的表情遷移能力以及動畫的真實感和動态表現力。

和早先發布的同類競品—— Runway 的 Act-One 相比，X-Portrait 2 也毫不遜色。同樣是「Nice 老爺爺」的喜感表情，Act-One 的生成效果是這樣的：

▲圖源：虎嗅

似乎隻做到了「遷移」，并且表情的誇張程度衰減明顯，還略微有點僵硬。如果遮住原視頻，可能根本看不出來這是在模仿誰。

同一個表情，以下是 X-Portrait 2 的生成效果：

除了表情的複刻更加精準細膩以外，我們似乎還能感受到那種自然流露的「喜感」。這才是 X-Portrait 2 的厲害之處。

對于 X-Portrait 2 的優勢，開發者是這樣說的：

與 X-Portrait 和最近發布的 Runway Act-One 等最先進的方法相比，我們的模型可以忠實地傳遞快速的頭部運動、微小的表情變化和強烈的個人情感。這些方面對于高質量動畫内容創作（例如動畫和電影制作中的内容）至關重要。

來看一個更加直觀的對比：

顯而易見，同初代 X-Portrait 相比，X-Portrait 2 的進步在于更加「自然流暢」；而同 Act-One 相比，X-Portrait 2 則更加「精準細膩」。

無論如何，X-Portrait 2 的推出繼續發揚了「用生成式 AI 代替動捕」這個可能的概念，并且使它更加成熟，距離落地商用又近了一步。