繼 OpenAI 的 Sora 連續一周霸屏後,昨晚,生成式 AI 頂級技術公司 Stability AI 也放了一個大招 —— Stable Diffusion 3。該公司表示,這是他們最強大的文生圖模型。
與之前的版本相比,Stable Diffusion 3 生成的圖在質量上實現了很大改進,支持多主題提示,文字書寫效果也更好了。以下是一些官方示例:
提示:史詩般的動漫作品,一位巫師在夜晚的山頂上向漆黑的天空施放宇宙咒語,咒語上寫着 "Stable Diffusion 3",由五彩缤紛的能量組成(Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy)
提示:電影照片,教室的桌子上放着一個紅蘋果,黑闆上用粉筆寫着 "go big or go home" 的字樣(cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk)
提示:一幅畫,畫中宇航員騎着一隻穿着蓬蓬裙的豬,撐着一把粉色的傘,豬旁邊的地上有一隻戴着高帽的知更鳥,角落裏有 "stable diffusion" 的字樣(a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion")
提示:黑色背景上變色龍的攝影棚特寫(studio photograph closeup of a chameleon over a black background)
此外,Stability AI 媒體主管也曬出了一些生成效果:
Stability AI 表示,Stable Diffusion 3 是一個模型系列,參數量從 800M 到 8B 不等。這個參數量意味着,它可以在很多便攜式設備上直接跑,大大降低了 AI 大模型的使用門檻。
此外,Stability AI 還透露,他們和 Sora 一樣,在新模型中采用了 diffusion transformer 架構,并在博客中鏈接了 William ( Bill ) Peebles 和謝賽甯合著的 DiT 論文。這篇論文目前的被引量是 201,今年有望大幅增長。
不過,現在,Stable Diffusion 3 還沒有全面開放,權重也沒有公布。團隊提到,他們正在采取一些安全措施,防止不法分子濫用。
該公司首席執行官 Emad Mostaque 在 X 平台的帖子中提到,在得到反饋并進行改進後,他們會把該模型開源。
很多人可能會好奇,這個 Stable Diffusion 3 和 DALL・E 3、Midjourney 比效果如何?有些人做了測試,看起來似乎沒有拉開明顯差距。不過,Stable Diffusion 3 是開源領域的希望。
值得注意的是,在 Stable Diffusion 3 發布的同一時間,外媒還傳出了 Stability AI 旗下圖像生成應用公司 Clipdrop 被收購的消息。總部位于巴黎的 Clipdrop 成立于 2020 年 7 月,使用開源 AI 模型允許用戶生成和編輯照片。在 2023 年 3 月以未披露的金額出售給 Stability AI 之前,它已從 Air Street Capital 籌集了種子投資。當時,Clipdrop 表示它擁有超過 1500 萬用戶。但僅僅一年之後,Stability AI 就将它賣給了美國寫作助理初創公司 Jasper。
有人評價說,Stable Diffusion 3 的發布就是在掩蓋這個消息。和很多 AI 創業公司一樣,Stability AI 面臨的困境在于其以驚人的速度燒錢,但卻沒有明确的盈利途徑。去年年底,該公司還傳出了 CEO 可能被投資者趕下台的消息,公司本身可能也在尋求賣身。在這樣的背景下,Stability AI 迫切地需要提振投資者信心。
英國媒體評價說,這筆交易标志着 Stability AI 戰略的逆轉。Emad Mostaque 在一份電子郵件聲明中表示,這筆交易将使該公司能夠繼續專注于開發 " 尖端的開放模型 "。在 Stable Diffusion 3 的相關博客中,該公司也強調," 我們對确保生成式人工智能開放、安全和普遍可及的承諾仍然堅定不移。" 目前看來,Stability AI 的前途仍不明朗。
Stable Diffusion 3 背後的技術:Diffusion Transformer+Flow Matching
在博客中,Stability AI 公布了打造 Stable Diffusion 3 的兩項關鍵技術:Diffusion Transformer 和 Flow Matching。
1. Diffusion Transformer
Stable Diffusion 3 使用了類似于 OpenAI Sora 的 Diffusion Transformer 框架,而此前幾代 Stable Diffusion 模型僅依賴于擴散架構。
Diffusion Transformer 是 Sora 研發負責人之一 Bill Peebles 與紐約大學助理教授謝賽甯最初在 2022 年底發布的研究,2023 年 3 月更新第二版。
論文探究了擴散模型中架構選擇的意義,研究表明 U-Net 歸納偏置對擴散模型的性能不是至關重要的,并且可以很容易地用标準設計(如 Transformer)取代。
論文鏈接:https://arxiv.org/pdf/2212.09748.pdf
具體來說,論文提出了一種基于 Transformer 架構的新型擴散模型 DiT,并訓練了潛在擴散模型,用對潛在 patch 進行操作的 Transformer 替換常用的 U-Net 主幹網絡。他們通過以 Gflops 衡量的前向傳遞複雜度來分析擴散 Transformer(DiT)的可擴展性,各個型号的 DiT 都取得了不錯的效果。
我們都知道,擴散模型的成功可以歸功于它們的可擴展性、訓練的穩定性和生成采樣的多樣性。在擴散模型的範圍内,所使用的骨幹架構存在很大差異,包括基于 CNN 的、基于 Transformer 的、CNN-Transformer 混合,甚至是狀态空間模型。
用于擴展這些模型以支持高分辨率圖像合成的方法也各不相同,現有方法或是增加了訓練的複雜性,或是需要額外的模型,或是犧牲了質量。潛在擴散是實現高分辨率圖像合成的主要方法,但在實踐中無法表現精細細節,影響了采樣質量,限制了其在圖像編輯等應用中的實用性。其他高分辨率圖像合成方法還有級聯超分辨率、多尺度損失、增加多分辨率的輸入和輸出,或利用自調節和适應全新的架構方案。
基于 DiT 的啓發,Stability AI 進一步提出了 Hourglass Diffusion Transformer ( HDiT ) 。這是一種随像素數量擴展的圖像生成模型,支持直接在像素空間進行高分辨率(如 1024 × 1024)訓練。
這項工作通過改進骨幹網絡解決了高分辨率合成問題。Transformer 架構可以擴展到數十億個參數,HDiT 在此基礎上,彌補了卷積 U-Net 的效率和 Transformer 的可擴展性之間的差距,無需使用典型的高分辨率訓練技術即可成功進行訓練。
論文鏈接:https://arxiv.org/pdf/2401.11605.pdf
研究者引入了一種 "pure transformer" 架構,獲得了一種能夠在标準擴散設置中生成百萬像素級高質量圖像的骨幹結構。即使在 128 × 128 等低空間分辨率下,這種架構也比 DiT 等常見 Diffusion Transformer 骨幹網絡(圖 2)的效率高得多,在生成質量上也具有競争力。另一方面,與卷積 U-Nets 相比,HDiT 在像素空間高分辨率圖像合成的計算複雜度方面同樣具備競争力。
2. Flow Matching
使用 Flow Matching 技術的意義則在于提升采樣效率。
深度生成模型能夠對未知數據分布進行估計和采樣。然而,對簡單擴散過程的限制導緻采樣概率路徑的空間相當有限,從而導緻訓練時間很長,需要采用專門的方法進行高效采樣。在這項工作中,研究者探讨了如何建立連續标準化流程的通用确定性框架。
這項研究爲基于連續歸一化流(CNF)的生成建模引入了一種新範式,實現了以前所未有的規模訓練 CNF。
論文鏈接:https://arxiv.org/pdf/2210.02747.pdf
具體來說,論文提出了 "Flow Matching" 的概念,這是一種基于固定條件概率路徑向量場回歸訓練 CNF 的免模拟方法。Flow Matching 與用于在噪聲和數據樣本之間進行轉換的高斯概率路徑的通用族兼容(通用族将現有的擴散路徑歸納爲具體實例)。
研究者發現,使用帶有擴散路徑的 Flow Matching 可以爲擴散模型的訓練提供更穩健、更穩定的替代方案。
此外,Flow Matching 還爲使用其他非擴散概率路徑訓練 CNF 打開了大門。其中一個特别值得關注的例子是使用最優傳輸(OT)位移插值來定義條件概率路徑。這些路徑比擴散路徑更有效,訓練和采樣速度更快,泛化效果更好。在 ImageNet 上使用 Flow Matching 對 CNF 進行訓練,在似然性和采樣質量方面的性能始終優于其他基于擴散的方法,并且可以使用現成的數值 ODE 求解器快速、可靠地生成采樣。