有手就行？把大象P轉身隻需拖動鼠标，華人一作DragGAN爆火

機器之心報道

編輯：蛋醬、小舟

如果甲方想把大象 P 轉身，你隻需要拖動 GAN 就好了。

在圖像生成領域，以 Stable Diffusion 爲代表的擴散模型已然成爲當前占據主導地位的範式。但擴散模型依賴于叠代推理，這是一把雙刃劍，因爲叠代方法可以實現具有簡單目标的穩定訓練，但推理過程需要高昂的計算成本。

在 Stable Diffusion 之前，生成對抗網絡（GAN）是圖像生成模型中常用的基礎架構。相比于擴散模型，GAN 通過單個前向傳遞生成圖像，因此本質上是更高效的。但由于訓練過程的不穩定性，擴展 GAN 需要仔細調整網絡架構和訓練因素。因此，GAN 方法很難擴展到非常複雜的數據集上，在實際應用方面，擴散模型比 GAN 方法更易于控制，這是 GAN 式微的原因之一。

當前，GAN 主要是通過手動注釋訓練數據或先驗 3D 模型來保證其可控性，這通常缺乏靈活性、精确性和通用性。然而，一些研究者看重 GAN 在圖像生成上的高效性，做出了許多改進 GAN 的嘗試。

最近，來自馬克斯・普朗克計算機科學研究所、MIT CSAIL 和谷歌的研究者們研究了一種控制 GAN 的新方法 DragGAN，能夠讓用戶以交互的方式「拖動」圖像的任何點精确到達目标點。

論文鏈接：https://arxiv.org/abs/2305.10973

項目主頁：https://vcai.mpi-inf.mpg.de/projects/DragGAN/

這種全新的控制方法非常靈活、強大且簡單，有手就行，隻需在圖像上「拖動」想改變的位置點（操縱點），就能合成你想要的圖像。

例如，讓獅子「轉頭」并「開口」：

還能輕松讓小貓 wink：

再比如，你可以通過拖動操縱點，讓單手插兜的模特把手拿出來、改變站立姿勢、短袖改長袖。看上去就像是同一個模特重新拍攝了新照片：

如果你也接到了「把大象轉個身」的 P 圖需求，不妨試試：

整個圖像變換的過程就主打一個「簡單靈活」，圖像想怎麽變就怎麽變，因此有網友預言：「PS 似乎要過時了」。

也有人覺得，這個方法也可能會成爲未來 PS 的一部分。

總之，觀感就是一句話：「看到這個，我腦袋都炸了。」

當大家都以爲 GAN 這個方向從此消沉的時候，總會出現讓我們眼前一亮的作品：

這篇神奇的論文，已經入選了 SIGGRAPH 2023。研究者表示，代碼将于六月開源。

那麽，DragGAN 是如何做到強大又靈活的？我們來看一下該研究的技術方法。

方法概述

該研究提出的 DragGAN 主要由兩個部分組成，包括：

基于特征的運動監督，驅動圖像中的操縱點向目标位置移動；

一種借助判别型 GAN 特征的操縱點跟蹤方法，以控制點的位置。

DragGAN 能夠通過精确控制像素的位置對圖像進行改變，可處理的圖像類型包括動物、汽車、人類、風景等，涵蓋大量物體姿态、形狀、表情和布局，并且用戶的操作方法簡單通用。

GAN 有一個很大的優勢是特征空間具有足夠的判别力，可以實現運動監督（motion supervision）和精确的點跟蹤。具體來說，運動監督是通過優化潛在代碼的移位特征 patch 損失來實現的。每個優化步驟都會導緻操縱點更接近目标，然後通過特征空間中的最近鄰搜索來執行點跟蹤。重複此優化過程，直到操縱點達到目标。

DragGAN 還允許用戶有選擇地繪制感興趣的區域以執行特定于區域的編輯。由于 DragGAN 不依賴任何額外的網絡，因此它實現了高效的操作，大多數情況下在單個 RTX 3090 GPU 上隻需要幾秒鍾就可以完成圖像處理。這讓 DragGAN 能夠進行實時的交互式編輯，用戶可以對圖像進行多次變換更改，直到獲得所需輸出。

如下圖所示，DragGAN 可以有效地将用戶定義的操縱點移動到目标點，在許多目标類别中實現不同的操縱效果。與傳統的形變方法不同的是，本文的變形是在 GAN 學習的圖像流形上進行的，它傾向于遵從底層的目标結構，而不是簡單地應用扭曲。例如，該方法可以生成原本看不見的内容，如獅子嘴裏的牙齒，并且可以按照物體的剛性進行變形，如馬腿的彎曲。

研究者還開發了一個 GUI，供用戶通過簡單地點擊圖像來交互地進行操作。

此外，通過與 GAN 反轉技術相結合，本文方法還可以作爲一個用于真實圖像編輯的工具。

一個非常實用的用途是，即使合影中某些同學的表情管理不過關，你也可以爲 Ta 換上自信的笑容：

順便提一句，這張照片正是本篇論文的一作潘新鋼，2021 年在香港中文大學多媒體實驗室獲得博士學位，師從湯曉鷗教授。目前是馬克斯普朗克信息學研究所博士後，并将從 2023 年 6 月開始擔任南洋理工大學計算機科學與工程學院 MMLab 的任助理教授。

這項工作旨在爲 GAN 開發一種交互式的圖像操作方法，用戶隻需要點擊圖像來定義一些對（操縱點，目标點），并驅動操縱點到達其對應的目标點。

這項研究基于 StyleGAN2，基本架構如下：

在 StyleGAN2 架構中，一個 512 維的潛在代碼∈ N（0，）通過一個映射網絡被映射到一個中間潛在代碼∈ R 512 中。的空間通常被稱爲 W。然後，被送到生成器，産生輸出圖像 I = ( ) 。在這個過程中，被複制了幾次，并被送到發生器的不同層，以控制不同的屬性水平。另外，也可以對不同層使用不同的，在這種情況下，輸入将是

，其中是層數。這種不太受約束的 W^+ 空間被證明是更有表現力的。由于生成器學習了從低維潛在空間到高維圖像空間的映射，它可以被看作是對圖像流形的建模。

實驗

爲了展示 DragGAN 在圖像處理方面的強大能力，該研究展開了定性實驗、定量實驗和消融實驗。實驗結果表明 DragGAN 在圖像處理和點跟蹤任務中均優于已有方法。

定性評估

圖 4 是本文方法和 UserControllableLT 之間的定性比較，展示了幾個不同物體類别和用戶輸入的圖像操縱結果。本文方法能夠準确地移動操縱點以到達目标點，實現了多樣化和自然的操縱效果，如改變動物的姿勢、汽車形狀和景觀布局。相比之下，UserControllableLT 不能忠實地将操縱點移動到目标點上，往往會導緻圖像中出現不想要的變化。