中科院等萬字詳解：最前沿圖像擴散模型綜述

針對圖像編輯中的擴散模型，中科院聯合 Adobe 和蘋果公司的研究人員發布了一篇重磅綜述。

全文長達 26 頁，共 1.5 萬餘詞，涵蓋 297 篇文獻，全面研究了圖像編輯的各種前沿方法。

同時，作者還提出了全新的 benchmark，爲研究者提供了便捷的學習參考工具。

在這份綜述中，作者從理論和實踐層面，詳盡總結了使用擴散模型進行圖像編輯的現有方法。

作者從學習策略、輸入條件等多個角度對相關成果進行分類，并展開了深入分析。

爲了進一步評估模型性能，作者還提出了一個測評基準，并展望了未來研究的一些潛在方向。

△基于擴散模型的圖像編輯成果速覽

下面，作者将從任務分類、實現方式、測試基準和未來展望四個方面介紹基于擴散模型的圖像編輯成果。

圖像編輯的分類

除了在圖像生成、恢複和增強方面取得的重大進步外，擴散模型在圖像編輯方面也實現了顯著突破，相比之前占主導地位的生成對抗網絡（GANs），前者具有更強的可控性。

不同于 " 從零開始 " 的圖像生成，以及旨在修複模糊圖像、提高質量的圖像恢複和增強，圖像編輯涉及對現有圖像外觀、結構或内容的修改，包括添加對象、替換背景和改變紋理等任務。

在這項調查中，作者根據學習策略将圖像編輯論文分爲三個主要組别：基于訓練的方法、測試時微調方法和無需訓練和微調的方法。

此外，作者還探讨了控制編輯過程使用的 10 種輸入條件，包括文本、掩碼、參考圖像、類别、布局、姿勢、草圖、分割圖、音頻和拖動點。

進一步地，作者調查了這些方法可以完成的 12 種最常見的編輯類型，它們被組織成以下三個廣泛的類别：

語義編輯：此類别包括對圖像内容和叙述的更改，影響所描繪場景的故事、背景或主題元素。這一類别内的任務包括對象添加、對象移除、對象替換、背景更改和情感表達修改。

風格編輯：此類别側重于增強或轉換圖像的視覺風格和審美元素，而不改變其叙述内容。這一類别内的任務包括顔色更改、紋理更改和整體風格更改，涵蓋藝術性和現實性風格。

結構編輯：此類别涉及圖像内元素的空間布局、定位、視角和特征的變化，強調場景内對象的組織和展示。這一類别内的任務包括對象移動、對象大小和形狀更改、對象動作和姿勢更改以及視角 / 視點更改。

圖像編輯的實現方式基于訓練的方法

在基于擴散模型的圖像編輯領域，基于訓練的方法已經獲得了顯著的突出地位。

這些方法不僅因其穩定的擴散模型訓練和有效的數據分布建模而著名，而且在各種編輯任務中表現可靠。

爲了徹底分析這些方法，作者根據它們的應用範圍、訓練所需條件和監督類型将它們分類爲四個主要組别。

根據核心編輯方法，這些主要組别中的方法又可以細分爲不同的類型。

下圖展示了兩種有代表性的 CLIP 指導方法—— DiffusionCLIP 和 Asyrp 的框架圖。

△樣本圖像來自 CelebA 數據集上的 Asyrp

下面的圖片，展示的是指令圖像編輯方法的通用框架。

△示例圖像來自 InstructPix2Pix、InstructAny2Pix 和 MagicBrush。測試時微調的方法

在圖像生成和編輯中，還會采用微調策略來增強圖像編輯能力，測試時微調帶來了精确性和可控制性的重要提升。

如下圖所示，微調方法的既包括微調整個去噪模型，也包括專注于特定層或嵌入。

此外，作者還讨論了超網絡的集成和直接圖像表示優化

下圖展示了使用不同微調組件的微調框架。

△樣本圖像來自 Custom-Edit 免訓練和微調方法

在圖像編輯領域，無需訓練和微調的方法起點是它們快速且成本低，因爲在整個編輯過程中不需要任何形式的訓練（在數據集上）或微調（在源圖像上）。

根據它們修改的内容，可以分爲五個類别，這些方法巧妙地利用擴散模型内在的原則來實現編輯目标。

下圖是免訓練方法的通用框架。

△樣本圖片來自 LEDITS++ 圖像 inpainting（補全）和 outpainting（外擴）

圖像補全和外擴通常被視爲圖像編輯的子任務，可以分爲兩大類型——上下文驅動的補全（上排）與多模态條件補全（下排）。

△樣本分别來自于 Palette 和 Imagen Editor 全新測試基準

除了分析各種方法的實現原理，評估這些方法在不同編輯任務中的能力也至關重要，但現有的圖像編輯測試标準存在局限。

例如，EditBench 主要針對文本和掩碼引導的補全，但忽略了涉及全局編輯的任務（如風格轉換）；TedBench 雖然擴展了任務範圍，但缺乏詳細指導；EditVal 試圖提供更全面的任務和方法覆蓋範圍，但圖像通常分辨率低且模糊……

爲了解決這些問題，作者提出了EditEval基準，包括一個 50 張高質量圖像的數據集，且每張圖像都附有文本提示，可以評估模型在 7 個常見編輯任務的性能。

這 7 種任務包括物體添加 / 移除 / 替換，以及背景、風格和姿勢、動作的改變。

此外，作者還提出了 LMM 分數，利用多模态大模型（LMMs）評估不同任務上的編輯性能，并進行了真人用戶研究以納入主觀評估。

△LMM Score 與用戶研究的皮爾遜相關系數

下圖比較了 LMM Score/CLIPScore 與用戶研究的皮爾遜相關系數。

挑戰和未來方向

作者認爲，盡管在使用擴散模型進行圖像編輯方面取得了成功，但仍有一些不足需要在未來的工作中加以解決。

減少模型推理步驟

大多數基于擴散的模型在推理過程中需要大量的步驟來獲取最終圖像，這既耗時又耗費計算資源，給模型部署和用戶體驗帶來挑戰。

爲了提高推理效率，已經由團隊研究了少步驟或一步生成的擴散模型。

近期的方法通過從預訓練的強擴散模型中提取知識來減少步驟數，以便少步驟模型能夠模仿強模型的行爲。

一個更具挑戰性的方向是直接開發少步驟模型，而不依賴于預訓練的模型（例如一緻性模型）。

提高模型效率

訓練一個能夠生成逼真結果的擴散模型在計算上是密集的，需要大量的高質量數據。

這種複雜性使得開發用于圖像編輯的擴散模型非常具有挑戰性。

爲了降低訓練成本，近期的工作設計了更高效的網絡架構作爲擴散模型的骨幹。

此外，另一個重要方向是隻訓練部分參數，或者凍結原始參數并在預訓練的擴散模型之上添加一些新層。

複雜對象結構編輯

現有的工作可以在編輯圖像時合成逼真的顔色、風格或紋理，但處理複雜結構時仍然會産生明顯的修改痕迹，例如手指、标志和文字。

研究者已經在嘗試解決這些問題，常用的策略是把 " 六個手指 " 等常見問題作爲負面提示，以使模型避免生成此類圖像，這在某些情況下是有效的，但不夠穩健。

近期的工作中，已有團隊開始使用布局、邊緣或密集标簽作爲指導，編輯圖像的全局或局部結構。

複雜的光照和陰影編輯

編輯對象的光照或陰影仍然是一個挑戰，因爲這需要準确估計場景中的光照條件。

以前的工作（如 Total Relighting）使用網絡組合來估計前景對象的法線、反照率和陰影，以獲得逼真的重新照明效果。

最近，也由有團隊提出将擴散模型用于編輯面部的光照，ShadowDiffusion 也探索了基于擴散模型的陰影合成，可以生成合理的對象陰影。

然而，使用擴散模型在不同背景條件下準确編輯對象的陰影仍然是一個未解決的問題。

圖像編輯模型的泛化性

現有基于擴散的圖像編輯模型能夠爲給定的一部分條件合成逼真的視覺内容，但在許多現實世界場景中仍然會失敗。

這個問題的根本原因在于，模型無法準确地對所有可能的樣本在條件分布空間中進行建模。

如何改進模型以始終生成無瑕疵的内容仍然是一個挑戰，解決這個問題有以下幾種思路：

首先是擴大訓練數據規模，以覆蓋具有挑戰性的場景，這種方式效果顯著，但成本較高，如在醫學圖像、視覺檢測等領域數據難以收集。

第二種方法是調整模型以接受更多條件，如結構引導、3D 感知引導和文本引導，以實現更可控和确定性的内容創作。

此外，還可以采用叠代細化或多階段訓練的方式，以逐步改進模型的初始結果。

可靠的評估指标

對圖像編輯進行準确評估，對于确保編輯内容與給定條件的對齊至關重要。

盡管有如 FID、KID、LPIPS、CLIP 得分、PSNR 和 SSIM 等定量指标，但大多數現有評估工作仍然嚴重依賴于用戶研究，這既不高效也不可擴展。

可靠的定量評估指标仍然是一個待解決的問題。最近，已經有團隊提出了更準确的指标來量化對象的感知相似性。

DreamSim 測量了兩幅圖像的中等級别相似性，考慮了布局、姿态和語義内容，并且優于 LPIPS。

類似的，前景特征平均（FFA）也是一種簡單而有效的方法，可被用于測量對象的相似性。

另外，作者在本文中提出了的 LMM score，也是一種有效的圖像編輯度量。

更多有關用于圖像編輯的擴散模型的詳細信息，可以閱讀原作，同時作者也在 GitHub 上發布了附帶資源庫。

論文鏈接：

https://arxiv.org/abs/2402.17525

Github：

https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods