Stable Diffusion 3突然發布！與Sora同架構，一切都更逼真了 - 青年圖摘

白交豐色發自凹非寺

量子位 | 公衆号 QbitAI

Stable Diffusion 3，它終于來了！

足足醞釀一年之多，相比上一代一共進化了三大能力。

來，直接上效果！

首先，是開挂的文字渲染能力。

且看這黑闆上的粉筆字：

Go Big or Go Home（不成功便成仁），這個倒是殺氣騰騰啊～

路牌、公交燈牌的霓虹效果：

還有刺繡上 " 勾 " 得快要看到針腳的 " 晚安 "：

作品一擺出，網友就大呼：太精确了。

以至于有人表示：趕緊把中文也安排上啊。

其次，多主題提示能力直接拉滿。

什麽意思？你盡管一次性往提示詞中塞入 n 多 " 元素 "，Stable Diffusion 3：漏一個算我輸。

呐，仔細瞅下圖，這裏面就有 " 宇航員 "、" 穿着芭蕾舞裙的小豬 "、" 粉色雨傘 "、" 戴着禮帽的知更鳥 "，角落裏還有 "Stable Diffusion" 幾個大字（可不是什麽水印）。

有了這個能力，一幅作品你想多豐富就有多豐富。

最後，當屬圖像質量，再次進化了一個度。

光看前面這些圖，就被沖擊到有沒有？！

而各種超清特寫，那是再信手拈來不過的了。

心動嗎？目前官方已開放排隊名單，大夥可以前往官網申請。

咳咳，也不得不說，最近這 AI 圈可真是相當熱鬧啊。

有網友直呼，我的電腦已經 Hold 不住了……

Stable Diffusion 3 來了！

全新的 Stable Diffusion 效果有多好，再給大夥奉送一些。

當然，所有出圖均來自官方，比如 StabilityAI 媒體負責人：

不得不說，文字效果實在最爲吸人眼球，各種形式都能呈現得相當清楚和 " 應景 "。

而看到上面這幅圖，不得不想到 "Midjourney 尴尬亮相學術界：爲生物學論文亂配圖 " 一事——有了 SD3 之後，我們是不是可以制作非常專業的學術配圖了？

除了這些，SD3 的 " 酒精水墨畫 " 也相當别出心裁：

動漫風格：

again，你可以在上面加清晰的文字了。

由于目前需要排隊申請，大夥還不好實際測試摸底。

不過有機智的網友已經用相同的提示詞喂給了 Midjourney（v 6.0）。

比如開頭的那張 " 紅蘋果與黑闆字 "（prompt：cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk）

最終 Midjourney 給出的結果如下：

從這組對比來看，可以說是高下立判—— SD3 無論是文字拼寫還是質量、色彩協調性等方面都更勝一籌。

技術方面，目前，模型可選擇的參數範圍在 800M 到 8B。

詳細的技術報告還未公布，官方目前隻透露主要結合了擴散型 transformer 架構以及 flow matching。

前者實際上同 Sora 一樣，附上的技術論文正是 22 年 William Peebles 同謝賽甯合寫的 DiT。

DiT 首次将 Transformer 與擴散模型結合到了一起，相關論文被 ICCV 2023 錄用爲 Oral 論文。

在該研究中，研究者訓練了潛在擴散模型，用對潛在 patch 進行操作的 Transformer 替換常用的 U-Net 主幹網絡。他們通過以 Gflops 衡量的前向傳遞複雜度來分析擴散 Transformer ( DiT ) 的可擴展性。

而後者 flow matching 同樣也是來自 22 年，由 Meta AI 以及魏茨曼科學研究所的科學家完成。

他們提出了基于連續歸一化流（CNFs）的生成模型新範式，以及 flow matching 的概念，這是一種基于回歸固定條件概率路徑的矢量場的免模拟 CNFs 的方法。結果發現使用帶有擴散路徑的 flow matching，可以訓練出來的模型更穩健和穩定。

不過最近看了這麽多視頻生成進展，也有網友表示：

你覺得呢？

One More Thing

除此之外，也就在前一天，他們的視頻産品 Stable Video 正式開放公測。

基于 SVD1.1（Stable Video Diffusion 1.1），人人可用。

主要支持文生視頻和圖生視頻兩個功能。