擴散模型的圖像生成統治地位,終于要被 GAN 奪回了?
就在大夥兒喜迎新年之際,英偉達一群科學家悄悄給 StyleGAN 系列做了個升級,變出個 PLUS 版的StyleGAN-T,一下子在網上火了。
無論是在星雲爆炸中生成一隻柯基:
還是基于虛幻引擎風格渲染的森林:
都隻需要接近 0.1 秒就能生成!
同等算力下,擴散模型中的 Stable Diffusion 生成一張圖片需要3 秒鐘,Imagen 甚至需要接近 10 秒。
不少網友的第一反應是:
GAN,一個我太久沒聽到的名字了。
很快谷歌大腦研究科學家、DreamFusion 第一作者 Ben Poole 趕來圍觀,并将 StyleGAN-T 與擴散模型做了個對比:
在低質量圖像(64 × 64)生成方面,StyleGAN-T 要比擴散模型做得更好。
但他同時也表示,在 256 × 256 圖像生成上,還是擴散模型的天下。
所以,新版 StyleGAN 生成質量究竟如何,它又究竟是在哪些領域重新具備競争力的?
StyleGAN-T 長啥樣?
相比擴散模型和自回歸模型多次叠代生成樣本,GAN 最大的優勢是速度。
因此,StyleGAN-T 這次也将重心放在了大規模文本圖像合成上,即如何在短時間内由文本生成大量圖像。
StyleGAN-T 基于 StyleGAN-XL 改進而來。
StyleGAN-XL 的參數量是 StyleGAN3 的 3 倍,基于 ImageNet 訓練,能生成 1024 × 1024 高分辨率的圖像,并借鑒了 StyleGAN2 和 StyleGAN3 的部分架構設計。
它的整體架構如下:
具體到細節上,作者們對生成器、判别器和文本對齊權衡機制進行了重新設計,用 FID 對樣本質量進行量化評估,并采用 CLIP 來對文本進行對齊。
在生成器上,作者們放棄了 StyleGAN3 中能實現平移同變性(equivariance)的架構,轉而采用了 StyleGAN2 的部分設計,包括輸入空間噪聲以及跳層連接等,以提升細節随機變化的多樣性。
在判别器上,作者們也重新進行了設計,采用自監督學習對 ViT-S 進行訓練。
随後,作者采用了一種特殊的截斷(truncation)方法來控制圖像生成的效果,同時權衡生成内容的多樣性。
隻需要控制參數 ψ,就能在确保 CLIP 分數(用于評估圖像生成效果)變動不大的情況下,改善生成圖像的風格多樣性。
随後,作者們用 64 個英偉達 A100 訓練了 4 周,最終得到了這版 StyleGAN-T。
那麼它的生成效果如何呢?
超快生成低分辨率圖像
作者們對當前最好的幾種 GAN、擴散模型和自回歸模型進行了評估。
在微軟的 MS COCO 數據集上,StyleGAN-T 實現了 64 × 64 分辨率下最高的 FID。
(其中,FID 是計算真實圖像和生成圖像特征向量距離的評估用值,數值越低,表示生成的效果越接近真實圖像)
但在更高的 256 × 256 分辨率生成上,StyleGAN-T 還是沒有比過擴散模型,隻是在生成效果上比同樣用 GAN 的 LAFITE 要好上不少:
如果進一步将生成時間和 FID 分别作為縱軸和橫軸,放到同一張圖上來對比,還能更直觀地對比生成質量和速度。
可見 StyleGAN-T 能保持在10FPS的速度下生成 256 × 256 分辨率圖像,同時 FID 值逼近 LDM 和 GLIDE 等擴散模型:
而在文本生成圖像功能上,作者們也從文本特征、風格控制等方面對模型進行了測試。
在增加或改變特定的形容詞後,生成的圖像确實符合描述:
即便是快速生成的圖像,也能迅速控制風格,如 " 梵高風格的畫 "or" 動畫 " 等:
當然,偶爾也有失敗案例,最典型的就是生成帶字母要求的圖像時,顯示不出正常字母來:
作者們正在努力整理代碼,表示不久之後就會開源。
作者介紹
作者們均來自圖賓根大學和英偉達。
一作 Axel Sauer,圖賓根大學博士生,此前在卡爾斯魯厄理工學院(KIT)獲得本碩學位。目前感興趣的研究方向是深度生成模型、神經網絡架構和實證研究。
二作 Tero Karras,英偉達傑出研究科學家,對英偉達 RTX 技術有重要貢獻,也是 StyleGAN 系列的主要作者,主要研究方向是計算機圖形學和實時渲染。
不過在這波 GAN 掀起的 " 文藝複興 " 浪潮下,也出現了 "StyleGAN 時代迎來終結 " 的聲音。
有網友感慨:
在這之前,最新 StyleGAN 生成的圖像總能讓我們大吃一驚,然而現在它給我們的印象隻剩下 " 快 " 了。
你認為 GAN 還能撼動擴散模型的統治地位嗎?
論文地址:
https://arxiv.org/abs/2301.09515
項目地址:
https://github.com/autonomousvision/stylegan-t