在電影《哈利波特》中,無論是牆上的畫,亦或是報紙上的圖片,他們都在魔法的驅動下動了起來,也因此被稱爲 " 活照片 "(live photo)。
哈利波特中的預言家日報
如今在人工智能技術的幫助下,這種猶如魔法般的技術可以輕松地在手機上實現。達芬奇筆下蒙娜麗莎的神秘微笑應該是家喻戶曉了,但這麽活潑的蒙娜麗莎你見過嗎?
這就是快手團隊自研的 " 活照片 " 功能,不僅能把人像變活,甚至還能将貓狗等小動物的靜态圖像驅動起來,可以眨眼、搖晃腦袋,還可以講話。目前,該技術已應用到 " 噗叽 "App。此外,快手的私信功能也将全量上線活表情。
噗叽 APP
" 噗叽 " 是快手旗下的社區軟件,裏面擁有海量不同類型的視頻内容。就制作表情包而言是非常簡單的,隻需要點擊 " 噗叽 "APP 上面的 " 來套表情包 " 就能進入到制作頁面。先選好風格,再上傳一張原始素材就能完成表情包的制作。
接下來試一試小動物。不得不感歎,即便是貓、狗這樣的非人生物,依然能夠準确識别五官,最後讓靜态的照片 " 活 " 起來。
除了照片的活動,哈利波特中的那些 " 活照片 " 是真真切切可以說話的。這個功能在對于快手自研的活照片技術來說也能實現,比如下面這個視頻就是把歌聲所對應的口型變化,賦予給原來的靜态照片,實現 " 照片在唱歌 " 的動态效果。
你以爲這樣就完了嗎?" 快手自研的活照片技術還能做到這樣的效果。
給定一張參考人像圖,以及一段模闆音頻,算法會讓靜态人像動起來,并對齊音頻的口型,此外還增加了如眨眼、頭部的姿态使其更具真實感。同時該算法也支持方言輸入,體現了算法的魯棒性。
如今的活照片技術是基于人工智能實現的,比如 MyHeritage 的 Deep Nostalgia 就是和 " 噗叽 " 一樣,使用人工智能來驅動的 " 活照片 " 技術。
Deep Nostalgia 的活照片
視頻所展示的所有動态圖片,都是将人工智能施加在過去的老照片上生成的:使用深度學習算法來分析人物的面部特征,并添加自然的頭部和面部動作,如眨眼、微笑和轉頭。這使得用戶能夠看到他們的祖先或曆史人物以一種全新的方式呈現。
在活照片領域中,比較知名的有 HeyGen 和 D-ID。前者主要是通過人工智能生成産品營銷和學習教育類活照片,D-ID 則是定制具有真實照片感的活照片。但是和這兩位老前輩相比," 噗叽 "APP 在口型準确度,畫面自然度上快手的活照片技術仍然具有較大優勢。
如何爲照片施加 " 魔法 "
活照片技術通常依賴于深度學習和圖像識别算法,這些算法能夠分析圖片中的各種元素,如人物、物體、景觀等,并識别出其關鍵特征。接着,通過模拟這些元素的可能動作(例如人臉的微笑、眨眼,或者樹葉随風擺動等),算法能夠在不改變原始圖片結構的基礎上,賦予它們動态效果。
快手技術團隊構建了一種生成式框架:先是将動态人像解耦爲神經表示與隐式形變,其中神經表示記錄了人像的 ID 信息,隐式形變則是人像姿态、表情等的表達。簡單來講,神經表示相當于人像的身份信息(ID),它記錄了人像的基本特征,比如面部特征。隐式形變則是對人像的姿态、表情等動态變化的描述。簡單來說,神經表示告訴我們 " 這是誰 ",而隐式形變告訴我們 " 他們在做什麽 "。
同時,憑借一種特殊的人臉重建算法,可以更準确地提供人臉的 2D(平面)和 3D(立體)信息。它能夠更好地理解和重建人臉的形狀和特征,也讓後續照片的 " 活動 " 更爲真實。
技術人員介紹,這套自研的人臉重建算法提供了更爲準确的 2D/3D 信息作爲引導信号,在上億規模的高質量(分辨率≥ 1K)的人像數據上進行訓練,得到了高表達力、強泛化性的人像基礎模型。輸入單張人像圖片,該模型在推理階段,能直接(zero-shot)将其解耦爲表示 ID 的神經表示和表達姿态、表情的隐式形變,不需要任何額外的微調訓練。此外,還針對局部如眼睛、嘴巴等設計了重定向模型,可以給定控制信号來額外進行眼睛、嘴巴的驅動,進一步增強了可控性。
也正是因爲這個系統是在大量高質量的人像數據上進行訓練的,所以它擁有強大的表達力和廣泛的适用性。換句話說,當你輸入一張人像照片時,這個模型可以直接、自動地将其分解爲神經表示和隐式形變,無需額外的微調訓練。
那麽,快手又是如何讓貓、狗這些非人的圖片變 " 活 " 的呢?技術人員通過聯合動物數據,将人像與動物的神經表示映射到同一分布,并共享同一個隐式形變模塊,使得基礎模型能夠支持人驅動貓狗等動物。
活照片技術會如何發展
活照片技術的未來發展預示着一場關于圖像處理和人工智能領域的革命。随着技術的進步,活照片将變得更加逼真、動态和互動,進而帶來一種全新的視覺體驗和表達方式。目前來看,活照片技術大多基于角色面部,而且因爲要從圖片中提取面部信息,所以要求圖片有較高的清晰度,以及角色必須要面沖鏡頭方向。
當深度學習和圖像處理技術叠代後,活照片就會表現得更加自然和逼真。未來的算法将能夠更準确地識别圖像中的元素,如人物的面部表情、身體姿态和背景環境,并以更加精細和真實的方式模拟它們的動态變化。這意味着活照片不僅能夠捕捉人物的微笑或眨眼等簡單動作,還能展現更複雜的情感和互動場景,例如群體交流的自然流動性或自然環境中的細微變化。
其次,活照片技術将與增強現實(AR)和虛拟現實(VR)技術的融合帶來更加沉浸式的體驗。用戶可以通過 VR 設備進入一個以活照片爲基礎的三維環境,感受仿佛身臨其境的動态場景。比如蘋果即将發售的 Vision Pro,未來有可能在其中生成基于 AR 的活照片。
此外,随着個性化技術的發展,用戶将能夠根據自己的喜好定制活照片的風格和動态效果。這包括選擇不同的動畫風格、背景音樂甚至實時調整動态效果的參數。這種定制能力不僅增加了用戶的參與感,也讓活照片成爲一種更加個人化的表達形式。