北大團隊最新工作,用擴散模型也能實現拖拉拽 P 圖!
點一點,就能讓雪山長個兒:
或者讓太陽升起:
這就是DragonDiffusion,由北京大學張健老師團隊 VILLA(Visual-Information Intelligent Learning LAB),依托北京大學深圳研究生院 - 兔展智能 AIGC 聯合實驗室,聯合騰訊 ARC Lab 共同帶來。
它可以被理解爲 DragGAN 的變種。
DragGAN 如今 GitHub Star 量已經超過 3w,它的底層模型基于 GAN(生成對抗網絡)。
一直以來,GAN 在泛化能力和生成圖像質量上都有短闆。
而這剛好是擴散模型(Diffusion Model)的長處。
所以張健老師團隊就将 DragGAN 範式推廣到了 Diffusion 模型上。
該成果發布時登上知乎熱榜。
有人評價說,這解決了 Stable Diffusion 生成圖片中部分殘缺的問題,可以很好進行控制重繪。
讓獅子在照片中轉頭
Dragon Diffusion 能帶來的效果還包括改變車頭形狀:
讓沙發逐漸變長:
再或者是手動瘦臉:
也能替換照片中的物體,比如把甜甜圈放到另一張圖片裏:
或者是給獅子轉轉頭:
該方法框架中包括兩個分支,引導分支(guidance branch)和生成分支(generation branch)。
首先,待編輯圖像通過 Diffusion 的逆過程,找到該圖像在擴散隐空間中的表示,作爲兩個分支的輸入。
其中,引導分支會對原圖像進行重建,重建過程中将原圖像中的信息注入下方的生成分支。
生成分支的作用是引導信息對原圖像進行編輯,同時保持主要内容與原圖一緻。
根據擴散模型中間特征具有強對應關系,DragonDiffusion 在每一個擴散叠補中,将兩個分支的隐變量通過相同的 UNet 去噪器轉換到特征域。
然後利用兩個 mask,和區域。标定拖動内容在原圖像和編輯後圖像中的位置,然後約束的内容出現在區域。
論文通過 cosin 距離來度量兩個區域的相似度,并對相似度進行歸一化:
除了約束編輯後的内容變化,還應該保持其他未編輯區域與原圖的一緻性。這裏也同樣通過對應區域的相似度進行約束。最終,總損失函數設計爲:
在編輯信息的注入方面,論文通過 score-based Diffusion 将有條件的擴散過程視爲一個聯合的 score function:
将編輯信号通過基于特征強對應關系的 score function 轉化爲梯度,對擴散過程中的隐變量進行更新。
爲了兼顧語義和圖形上的對齊,作者在這個引導策略的基礎上引入了多尺度引導對齊設計。
此外,爲了進一步保證編輯結果和原圖的一緻性,DragonDiffusion 方法中設計了一種跨分支的自注意力機制。
具體做法是利用引導分支自注意力模塊中的 Key 和 Value 替換生成分支自注意力模塊中的 Key 和 Value,以此來實現特征層面的參考信息注入。
最終,論文提出的方法,憑借其高效的設計,爲生成的圖像和真實圖像提供了多種編輯模式。
這包括在圖像中移動物體、調整物體大小、替換物體外觀和圖像内容拖動。
在該方法中,所有的内容編輯和保存信号都來自圖像本身,無需任何微調或訓練附加模塊,這能簡化編輯過程。
研究人員在實驗中發現,神經網絡第一層太淺,無法準确重建圖像。但如果到第四層重建又會太深,效果同樣很差。在第二 / 三層的效果最佳。
相較于其他方法,Dragon Diffusion 的消除效果也表現更好。
來自北大張健團隊等
該成果由北京大學張健團隊、騰訊 ARC Lab 和北京大學深圳研究生院 - 兔展智能 AIGC 聯合實驗室共同帶來。
張健老師團隊曾主導開發 T2I-Adapter,能夠對擴散模型生成内容進行精準控制。
在 GitHub 上攬星超 2k。
該技術已被 Stable Diffusion 官方使用,作爲塗鴉生圖工具 Stable Doodle 的核心控制技術。
兔展智能聯手北大深研院建立的 AIGC 聯合實驗室,近期在圖像編輯生成、法律 AI 産品等多個領域取得突破性技術成果。
就在幾周前,北大 - 兔展 AIGC 聯合實驗室就推出了登上知乎熱搜第一的的大語言模型産品 ChatLaw,在全網帶來千萬曝光同時,也引發了一輪社會讨論。
聯合實驗室将聚焦以 CV 爲核心的多模态大模型,在語言領域繼續深挖 ChatLaw 背後的 ChatKnowledge 大模型,解決法律金融等垂直領域防幻覺,可私有化、數據安全問題。
據悉,實驗室近期還會推出原創對标 Stable Diffusion 的大模型。
論文地址:
https://arxiv.org/abs/2307.02421
項目主頁:
https://mc-e.github.io/project/DragonDiffusion/