讓GAN再次偉大！拽一拽關鍵點就能讓獅子張嘴&大象轉身，湯曉鷗弟子的DragGAN爆火，網友：R.I.P. Photoshop - 青年圖摘

這兩天，一段 AI 修圖視頻在國内外社交媒體上傳瘋了。

不僅直接蹿升 B 站關鍵詞聯想搜索第一，視頻播放上百萬，微博推特也是火得一塌糊塗，轉發者紛紛直呼 "PS 已死 "。

怎麽回事？

原來，現在 P 圖真的隻需要 " 輕輕點兩下 "，AI 就能徹底理解你的想法！

小到豎起狗子的耳朵：

大到讓整隻狗子蹲下來，甚至讓馬岔開腿 " 跑跑步 "，都隻需要設置一個起始點和結束點，外加拽一拽就能搞定：

不止是動物的調整，連像汽車這樣的 " 非生物 "，也能一鍵拉升底座，甚至升級成 " 加長豪華車 "：

這還隻是 AI 修圖的 " 基操 "。

要是想對圖像實現更精準的控制，隻需畫個圈給指定區域 " 塗白 "，就能讓狗子轉個頭看向你：

或是讓照片中的小姐姐 " 眨眨眼 "：

甚至是讓獅子張大嘴，連牙齒都不需要作爲素材放入，AI 自動就能給它 " 安上 "：

如此 " 有手就能做 " 的修圖神器，來自一個 MIT、谷歌、馬普所等機構聯手打造的DragGAN新模型，論文已入選 SIGGRAPH 2023。

沒錯，在擴散模型獨領風騷的時代，竟然還能有人把GAN玩出新花樣！

目前這個項目在 GitHub 上已經有5k+ Star，熱度還在不斷上漲中（盡管一行代碼還沒發）。

所以，DragGAN 模型究竟長啥樣？它又如何實現上述 " 神一般的操作 "？

拽一拽關鍵點，就能修改圖像細節

這個名叫 DragGAN 的模型，本質上是爲各種 GAN 開發的一種交互式圖像操作方法。

論文以StyleGAN2架構爲基礎，實現了點點鼠标、拽一拽關鍵點就能 P 圖的效果。

具體而言，給定 StyleGAN2 生成的一張圖像，用戶隻需要設置幾個控制點（紅點）和目标點（藍點），以及圈出将要移動的區域（比如狗轉頭，就圈狗頭）。

然後模型就将叠代執行運動監督和點跟蹤這兩個步驟，其中運動監督會驅動紅色的控制點向藍色的目标點移動，點跟蹤則用于更新控制點來跟蹤圖像中的被修改對象。

這個過程一直持續到控制點到達它們對應的目标點。

不錯，運動監督和點跟蹤就是我們今天要講的重點，它是 DragGAN 模型中最主要的兩個組件。

先說運動監督。在此之前，業界還沒有太多關于如何監督 GAN 生成圖像的點運動的研究。

在這項研究中，作者提出了一種不依賴于任何額外神經網絡的運動監督損失（loss）。

其關鍵思想是，生成器的中間特征具有很強的鑒别能力，因此一個簡單的損失就足以監督運動。

所以，DragGAN 的運動監督是通過生成器特征圖上的偏移補丁損失（shifted patch loss）來實現的。

如下圖所示，要移動控制點 p 到目标點 t，就要監督 p 點周圍的一小塊 patch（紅圈）向前移動的一小步（藍圈）。

再看點跟蹤。

先前的運動監督會産生一個新的 latent code、一個新特征圖和新圖像。

由于運動監督步驟不容易提供控制點的精确新位置，因此我們的目标是更新每個手柄點 p 使其跟蹤上對象上的對應點。

此前，點跟蹤通常通過光流估計模型或粒子視頻方法實現。

但同樣，這些額外的模型可能會嚴重影響效率，并且在 GAN 模型中存在僞影的情況下可能使模型遭受累積誤差。

因此，作者提供了一種新方法，該方法通過最近鄰檢索在相同的特征空間上進行點跟蹤。

而這主要是因爲 GAN 模型的判别特征可以很好地捕捉到密集對應關系。

基于這以上兩大組件，DragGAN 就能通過精确控制像素的位置，來操縱不同類别的對象完成姿勢、形狀、布局等方面的變形。

作者表示，由于這些變形都是在 GAN 學習的圖像流形上進行的，它遵從底層的目标結構，因此面對一些複雜的任務（比如有遮擋），DragGAN 也能産生逼真的輸出。

單張 3090 幾秒鍾出圖

所以，要實現幾秒鍾 " 精準控圖 " 的效果，是否需要巨大的算力？

nonono。大部分情況下，每一步拖拽修圖，單張 RTX 3090 GPU在數秒鍾内就能搞定。

具體到生成圖像的效果上，實際評估（均方誤差 MSE、感知損失 LPIPS）也超越了一系列類似的 "AI 修圖 " 模型，包括 RAFT 和 PIPs 等等：

如果說文字的還不太直觀，具體到視覺效果上就能感受到差異了：

值得一提的是，DragGAN 的 " 潛力 " 還不止于此。

一方面，如果增加關鍵點的數量，還能實現更加精細的 AI 修圖效果，用在人臉這類對修圖要求比較嚴格的照片上，也是完全沒問題：

另一方面，不止開頭展示的人物和動物，放在汽車、細胞、風景和天氣等不同類型的圖像上，DragGAN 也都能精修搞定。

除了不同的照片類型，從站到坐、從直立到跑步、從跨站到并腿站立這種姿勢變動較大的圖像，也能通過 DragGAN 實現：

也難怪網友會調侃 " 遠古的 PS 段子成真 "，把大象轉個身這種甲方需求也能實現了。

不過，也有網友指出了 DragGAN 目前面臨的一些問題。

例如，由于它是基于 StyleGAN2 生成的圖像進行 P 圖的，而後者訓練成本很高，因此距離真正商業落地可能還有一段距離。

除此之外，在論文中提到的 " 單卡幾秒鍾修圖 " 的效果，主要還是基于256 × 256分辨率圖像：

至于模型是否能擴展到 256 × 256 以外圖像，生成的效果又是如何，都還是未知數。

有網友表示 " 至少高分辨率圖像從生成時間來看，肯定還要更長 "。

實際上手的效果究竟如何，我們可以等 6 月論文代碼開源後，一測見真章。

團隊介紹

DragGAN 的作者一共 6 位，分别來自馬克斯・普朗克計算機科學研究，薩爾布呂肯視覺計算、交互與 AI 研究中心，MIT，賓夕法尼亞大學和谷歌 AR/VR 部門。

其中包括兩位華人：

一作潘新鋼，他本科畢業于清華大學（2016 年），博士畢業于香港中文大學（2021 年），師從湯曉鷗教授。

現在是馬普計算機科學研究所的博士後，今年 6 月，他将進入南洋理工大學擔任助理教授（正在招收博士學生）。

另一位是Liu Lingjie，香港大學博士畢業（2019 年），後在馬普信息學研究所做博士後研究，現在是賓夕法尼亞大學助理教授（也在招學生），領導該校計算機圖形實驗室，也是通用機器人、自動化、傳感與感知 ( GRASP ) 實驗室成員。

值得一提的是，爲了展示 DragGAN 的可控性，一作還親自上陣，演示了生發、瘦臉和露齒笑的三連 P 圖效果：

是時候給自己的主頁照片 " 修修圖 " 了（手動狗頭）。

論文地址：

https://vcai.mpi-inf.mpg.de/projects/DragGAN/data/paper.pdf

項目地址（代碼 6 月開源）：

https://github.com/XingangPan/DragGAN

參考鏈接：

[ 1 ] https://weibo.com/1727858283/N1iKl4zVG

[ 2 ] https://twitter.com/_akhaliq/status/1659424744490377217

[ 3 ] https://twitter.com/mrgreen/status/1659482594516377601