近日,字節跳動和清華大學在 GitHub 上聯合推出了一款最新的人像動畫技術「X-Portrait 2」。
具體來講,X-Portrait 2 是一款「生成式人像轉移模型」,其使用方法非常直觀和簡單:用戶隻需要提供一張靜态肖像圖和一段含有表情變化的「表演」視頻,這個技術就能一鍵将表情「遷移」至肖像上面,從而使前者也「動起來」。
就像下面這樣:
可以看到,左下角是「靜态肖像」,右下角則是「表演視頻」,而 X-Portrait 2 的功能就是讓左邊的角色做出同右邊人物幾乎一模一樣的表情。
除了「表情」以外,就連「神态」也幾乎是像素級複刻:
眉眼和笑容之中所包含的「狡黠」和「頑皮」,全部都精準地呈現出來了。
頭部扭動幅度較大的情況下,X-Portrait 2 也完全可以勝任,表情也并未失真:
一個比較「務實」的使用場景,是它可以用來「對口型」,有時可以配合後期修改台詞的需要:
不僅複刻精準,并且也足夠流暢自然。發布者也因此将其稱爲「極具表現力的肖像動畫」。
顯然,這個模型能夠實現跨風格和跨領域的表情轉移,覆蓋寫實肖像和卡通圖像;并且适應性較強,能夠用于包括現實世界的故事講述、動畫角色的呈現、虛拟代理以及其他視覺效果。
在電影或者動畫的後期特效制作方面,X-Portrait 2 無疑大大簡化了現有的動作捕捉、角色動畫和内容創作流程。
相較于其原型 X-Portrait,X-Portrait 2 的升級和創新謂之「進化」都不爲過。
X-Portrait 2 采用了一個更先進的表情編碼器,這個編碼器在大規模數據集上進行訓練,其能夠更精确地捕捉和再現人物的微妙表情,包括嘟嘴、鼓腮和皺眉等細節,還原了表情的複雜性,并提升了其真實感。
同時,X-Portrait 2 實現了外觀和動作的有效分離,這意味着在遷移表情時,原始圖像的外觀特征得以保留,表情變化不會影響人物的基本面貌,提高了動畫的自然程度和一緻性。
值得一提的是,X-Portrait 2 還創新地引入了生成式擴散模型,這種模型能夠處理不同視角下的表情變化,生成更加流暢和真實的動畫效果,解決了傳統方法在視角變化時可能出現的表情不協調問題。
此外,X-Portrait 2 還增強了跨領域的表情遷移能力以及動畫的真實感和動态表現力。
和早先發布的同類競品—— Runway 的 Act-One 相比,X-Portrait 2 也毫不遜色。同樣是「Nice 老爺爺」的喜感表情,Act-One 的生成效果是這樣的:
▲圖源:虎嗅
似乎隻做到了「遷移」,并且表情的誇張程度衰減明顯,還略微有點僵硬。如果遮住原視頻,可能根本看不出來這是在模仿誰。
同一個表情,以下是 X-Portrait 2 的生成效果:
除了表情的複刻更加精準細膩以外,我們似乎還能感受到那種自然流露的「喜感」。這才是 X-Portrait 2 的厲害之處。
對于 X-Portrait 2 的優勢,開發者是這樣說的:
與 X-Portrait 和最近發布的 Runway Act-One 等最先進的方法相比,我們的模型可以忠實地傳遞快速的頭部運動、微小的表情變化和強烈的個人情感。這些方面對于高質量動畫内容創作(例如動畫和電影制作中的内容)至關重要。
來看一個更加直觀的對比:
顯而易見,同初代 X-Portrait 相比,X-Portrait 2 的進步在于更加「自然流暢」;而同 Act-One 相比,X-Portrait 2 則更加「精準細膩」。
無論如何,X-Portrait 2 的推出繼續發揚了「用生成式 AI 代替動捕」這個可能的概念,并且使它更加成熟,距離落地商用又近了一步。