沒想到,OpenAI 撈了 " 競對 "Stable Diffusion 一把。
在熱火朝天的 "AI 春晚 " 上,OpenAI 一口氣開源兩項工作,其中之一一緻性解碼器,專門面向 SD 的 VAE 模型。
它能讓圖像生成質量更高、更穩定,比如多人臉、帶文字圖像以及線條控制方面。
大 V 博主分析這個解碼器應該是Dall · E 3 同款,在 GitHub 項目頁上 OpenAI 也提供了 Dall · E 3 論文。
它具體支持的版本是 Stable Diffusion 1.4/1.5。
項目頁上隻放了一個例子,具體怎麽訓練沒有寫,被網友稱爲 " 人狠話不多式開源 "。
你們直接加載使用就好。
而且這個一緻性解碼器頗有淵源。
它來自OpenAI 聯創及首席科學家 Ilya、OpenAI 華人新星宋飏等人提出的一緻性模型(Consistency Models)。
上半年這個模型開源時就引發業内震動,被評爲能 " 終結擴散模型 "。
就在前不久,宋飏等人還對模型訓練方法做了優化,能進一步提升圖像生成質量。
開發者日的另一項重磅開源是語音大模型 Whisper 3。它同樣出自傳奇人物之手,一作 Alec Radford 對 GPT 系列的構建起到了重要作用。
網友們不禁感慨:還是愛看 OpenAI 開源啊,期待繼續開放更多模型。
一緻性模型完成再進化
先來看最初名震江湖的第一版一緻性模型(Consistency Models)。
它旨在解決擴散模型通過逐步叠代、導緻圖像生成緩慢的問題。僅需 3.5 秒即可生成 64 張左右 256 × 256 的圖像。
相比擴散模型,它主要有兩大優勢:
其一,無需對抗訓練(adversarial training),就能直接生成高質量的圖像樣本。
其二,相比擴散模型可能需要幾百甚至上千次叠代,一緻性模型隻需要一兩步就能搞定多種圖像任務——
包括上色、去噪、超分等,都可以在幾步之内搞定,而不需要對這些任務進行明确訓練。(當然,如果進行少樣本學習的話,生成效果也會更好)
原理上,一緻性模型直接把随機的噪聲映射到複雜圖像上,輸出都是同一軌迹上的同一點,所以實現了一步生成。
論文提出兩種訓練方法,一種是基于一緻性蒸餾,利用預訓練的擴散模型生成相鄰數據對,通過最小化模型輸出之間的差異,來訓練一緻性模型。
另一種方法是獨立訓練,将一緻性模型作爲獨立生成模型訓練。
實驗結果表明,一緻性模型在一步和少步采樣方面優于現有的蒸餾技術,如漸進式蒸餾。
當作爲獨立的生成模型進行訓練時,一緻性模型可以與現有的一步非對抗生成模型在标準基準測試彙總媲美,如 CIFAR-10、ImageNet 64 × 64 和 LSUN 256 × 256。
半年後發布的第二版論文,對訓練方法進行了優化。
它通過優化權重函數、噪聲嵌入和 dropout,使得一緻性模型在不需要依賴學習過的特征,也能達到很好的生成質量。
它改進了權重函數的選擇,使其随着噪聲水平的增加而減小,這使得在較小噪聲水平處的一緻性損失權重更大,從而提升樣本質量。
同時調整了噪聲嵌入層的敏感性,使其降低對微小噪聲差異的敏感性,有助于提高連續時間一緻性訓練的穩定性。
并且發現了在一緻性模型中使用較大 dropout、移除 teacher network 中的 EMA、将學習過的特征距離(如 LPIPS)替換 Pseudo-Huber 損失函數,都能能進一步提高圖像質量。
One More Thing
回到這次最新開源的解碼器,第一波實測體驗已經來了。
目前看到的一些效果,提升不算明顯,而且不少人反映運行速度慢。
但這還是最早期的測試,後續或許會有更多提升。
值得一提的是,領銜推出一緻性模型的宋飏,年紀輕輕但是已被評爲擴散模型圈 OG(元老)了。
△來自英偉達 AI 科學家 Jim Fan 推特
今年,憑借一緻性模型,宋飏也名震江湖。這位大佬 16 歲就當理科狀元上清華了,關于他的更多故事可戳:
論文地址:
[ 1 ] https://arxiv.org/abs/2310.14189
[ 2 ] https://arxiv.org/abs/2303.01469