Stable Diffusion 3深夜橫空出世，模型與Sora同架構，也能「理解」物理世界

最近，每天都有新炸彈，各家紛紛開大了。

昨天的炸彈，是 Stable Diffusion 3。

AI 生圖效果，再次到達全新裏程碑！

Prompt：Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy

提示（意譯版）：在一幅充滿史詩感的動漫畫面中，一位巫師屹立于夜幕籠罩的山巅之上，正用他的法杖向漆黑無垠的夜空中施展一道震撼宇宙的魔法。這道法術在夜空中綻放，化作由五彩缤紛的能量構成的「Stable Diffusion 3」字樣，猶如夜空中最璀璨的星辰。

網友複刻版，同樣驚豔：

網友驚呼：這種 prompt 的一緻性是我見過最好的！

這次的 Stable Diffusion 3，在圖像質量、多個對象、拼寫能力方面，都得到了顯著提升。

甚至，它似乎還湧現出了對物理世界的「理解」。

Prompt: A horse balancing on top of a colorful ball in a field with green grass and a mountain in the background.

提示（意譯版）：一匹馬優雅地站在一個五彩斑斓的球上，周圍是一片生機勃勃的綠色草地。遠處，一座雄偉的山巒巍峨地矗立。

Prompt：Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat

提示：一個紅色的球體放在一個藍色的立方體上面。在它們後面是一個綠色的三角形，在右邊是一隻狗，在左邊是一隻貓。

而 DALL-E 3 就相形見拙了。

關于 Stable Diffusion 3.0 的核心技術進展，CEO Emd 總結了一份「太長不看版」摘要——

- 采用了與 Sora 類似的 Diffusion Transformer 技術，并結合了流匹配（Flow Matching）等多項技術改進。

- 通過利用對 Transformer 的改進，不僅使得系統擴展性更強，還能處理多種類型的輸入數據。

- 将以開源形式發布，通過預覽版的測試來進一步提升系統的質量和安全性。

- 發布時，将包含一套完整的工具。

- 基于最新硬件技術打造的新平台，可以支持多種規模的版本。

- 支持生成視頻、3D 以及更多類型的内容創作。

- 需要更多的 GPU 來實現更強大的計算能力。

不得不說，最近這段時間，DiT 實火！

目前，模型可選擇的參數範圍在 800M 到 8B 之間。

現在，已經可以在這裏加入候補名單，申請 SD3 的訪問權限了：https://stability.ai/stablediffusion3

Stable Diffusion 3，文字渲染能力超進化

按照 prompt 生成指定文字，一直以來都是文生圖模型的老大難問題。

從左到右：DeepFloyd IF、DALLE-2、Bing Image Creator、Midjourneyv5.2、SDXL v0.9（2023 年 7 月）

但是這次，SD3 模型對于 prompt 理解得很好，在黑闆上正确寫出了「go big or go home」。

而且畫面非常寫實，遠近位置、光影，都顯得極其自然。

Prompt: cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk.

提示（意譯版）：這張電影級視覺效果的照片，捕捉到了一個靜谧的教室瞬間，一顆鮮紅的蘋果靜靜地躺在桌子上，而在它背後的黑闆上，則用醒目的粉筆字寫着——「要麽做大，要麽回家」。

相比之下，Midjourney 的圖是這樣的：

Gemini Advanced / Ultra 的圖是這樣的：

DALL-E 3 的圖是這樣的：

各種形式的文字渲染，SD3 都出色地完成了。

Prompt：Resting on the kitchen table is an embroidered cloth with the text 'good night' and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic.

提示：廚房桌上鋪着一塊精美的繡布，上面繡着「good night」字樣和一隻可愛的小老虎。旁邊，一支蠟燭靜靜燃燒，散發出柔和而略帶戲劇性的光影。

Prompt：Photo of an 90's desktop computer on a work desk, on the computer screen it says "welcome". On the wall in the background we see beautiful graffiti with the text "SD3" very large on the wall.

提示：一台放在工作桌上的 90 年代的台式電腦，屏幕上寫着「welcome」。在背後的牆面上，有一幅醒目的塗鴉藝術作品，寫的是「SD3」。

Prompt: Anime style illustration of a newsstand on top of a small grassy hill, on top of the newsstand we see the text "it's here!". In the background we see a big rain approaching.

提示：這是一幅充滿動漫特色的插畫，一個報刊亭坐落在一片綠意盎然的小山丘上，亭頂醒目地展示着「it's here!」的字樣。而在這個甯靜的場景背後，一場壯觀的暴雨即将來臨。

Prompt: Night photo of a sports car with the text "SD3" on the side, the car is on a race track at high speed, a huge road sign with the text "faster".

提示：在這幅夜幕下的攝影作品中，一輛标有「SD3」字樣的運動賽車正在賽道上疾馳。背景裏，一塊巨大的路牌顯眼地展示着「faster」一詞。

Prompt: Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.

提示：一張木桌上擺放着三個透明的玻璃瓶。從左至右，每個瓶子内分别充滿了鮮豔的紅、藍、綠色液體。瓶子上，用數字 1、2、3 進行了标記。

Prompt: Photo of a rectangular orange neon sign with the text "even more stable", the sign is on the wall in a metro station, subway speeding by in the background, perspective photo.

Stable Diffusion 3.0 能在文字渲染能力上取得顯著提升，是因爲 Stability AI 在新模型中采用了全新技術—— Transformer 和新增的文本編碼功能。

CEO Emad Mostaque 解釋說，因爲上述原因，現在 SD 3 不僅能生成完整句子，還能保持風格的一緻性。

宇航員騎着粉色芭蕾舞裙豬，除 SD 3 竟然全軍覆沒？

處理包含多個對象的 Prompt 的能力，也是考核 AI 生圖模型的一大關鍵指标。

下面這個 prompt，着實難倒了一大片選手——

一幅宇航員撐着粉色雨傘、騎着一隻穿着芭蕾舞短裙的豬的畫，豬旁邊的地上是一隻戴着高頂帽子的知更鳥，畫面的角落裏寫着「stable diffusion」。

這個 prompt，要求模型正确理解對象的屬性、位置，以及正确呈現字體很小的文本，着實是一道難題。

如此要素拉滿的細節要求，SD3.0 全部理解，并且精确地完成了！

宇航員，粉色雨傘、穿着粉芭蕾舞裙的豬、戴高帽的知更鳥、角落裏的字，100% 符合 prompt 的要求。這就表明：模型很好地理解了 prompt。

Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"

對于同一 prompt，其他模型的表現就落後了。

DALL-E 3 畫出的畫倒是過關了，但它把「Diffusion」拼錯了。

Bing 的表現就更是離譜了，有的圖中芭蕾舞裙的顔色不對，有的知更鳥站在了豬腦袋上，有的更是畫面中飛滿了知更鳥。而「Stable Diffusion」更是錯得離譜。

Gemini Advanced 這個差生的答案就更慘不忍睹了，除了拼寫問題，畫也沒畫對。

下面出場的，就是以畫面質量精美著稱的優秀文生圖選手 Midjourney 了。

從畫面美感上說，MJ 依然甩其他模型一條街，但是考試就是考試，「Stable Diffusion」，它也沒拼對。

總結下來，這一道考題唯一的滿分選手，就是 Stable Diffusion 3！

和 Sora 同樣的 Diffusion Transformer 架構

所以，Stable Diffusion 3.0 爲何有如此突飛猛進的表現？

原因在于，它采用了全新的架構設計。

Stability AI 的首席執行官 Emad Mostaque 表示——

「Stable Diffusion 3 采用了 Diffusion Transformer 架構，這是一種新型的架構設計，與 OpenAI 最近推出的 Sora 模型采用的架構相似。」

在以前的 Stable Diffusion 版本中，并未采用 Transformer 技術。

而 Stable Diffusion 3.0 采用了一種全新的方法，引入了 Diffusion Transformer 技術。如果你對最近的爆火的 sora 有所了解，肯定對這個技術已經耳熟能詳了。

Transformer 技術是，當前生成式 AI 革命的核心，廣泛應用于文本生成模型中。而圖像生成技術，則主要基于 Diffusion 模型。

Sora 作者之一 William 和謝賽甯，在這篇論文中共同提出了 Sora 的基礎架構。

論文地址：https://arxiv.org/abs/2212.09748

這篇詳細介紹 DiTs 的論文指出，這種基于擴散模型的新架構，可以用在圖像 patch 上運行的 Transformer 替代了傳統的 U-Net 架構。

這樣，DiTs 方法就可以更高效地利用計算資源，并且在圖像生成方面超越了其他擴散模型技術。

一篇因「缺乏創新性」被 CVPR 2023 拒收的論文，竟成了 Sora 和 Stable Diffusion 3.0 的奠基之作，學術創新和工程創新的區别，着實引人深究。

Stable Diffusion 3.0 的另一個創新亮點，就是流匹配技術。

一篇關于流匹配的研究論文介紹了這一新方法，它可以用于訓練連續歸一化流（Continuous Normalizing Flows, CNFs），以便更準确地模拟複雜的數據分布。

論文地址：https://arxiv.org/abs/2210.02747

研究表明，通過結合使用條件流匹配（Conditional Flow Matching, CFM）和最優傳輸路徑，可以實現更快的訓練速度、更高效的樣本生成，并且在性能上超越傳統的擴散路徑方法。

其實，Stability AI 一直在探索多種新穎的圖像生成技術。

就在本月初，他們就推出了一項名爲 Stable Cascade 的新技術。

它基于一種名爲 Würstchen 的先進架構，旨在提升生成圖像的性能和精确度。

一大波整活來了

在圖像質量上，SD 3.0 也取得了令人震驚的進步。

「變色龍在黑色背景上的攝影棚照片特寫」，它生成的圖是這樣的。

Prompt：studio photograph closeup of a chameleon over a black background.

Gemini Advanced/Ultra 生圖是這樣的。

Midjourney 是這樣的。

因爲題幹沒有區分度，所以大家表現差不多。

從更多的演示中可以看出，無論是在自然寫實風景，還是在漫畫、海報中，SD 3 不僅做到了正确還原文字，還讓文字和畫面做到了很好的融合，一點都不突兀。

Prompt: Trees photographed under the Milky Way, the moon and twilight shine on the Valley. The full moon appears high in the sky and the twilight glow can still be seen.

再比如黑客帝國中的 Neo 狗。