那個和 Midjourney 打得難舍難分,引發了一波買顯卡 " 煉丹 " " 煉妹子 " 風潮的 Stable Diffusion ,又推出船新版本了。
就在昨天晚上, Stability AI 在官網來了一波更新,預告了一波 Stable Diffusion 3 。
根據介紹,新版本在多主題提示、圖片質量還有文字渲染能力上都進行了次大升級,模型參數量在 800M-8B 之間,并且延續了他們家一如既往開源的優秀傳統。
更重要的是,它和 Sora 一樣當起了維新派,摒棄了業内常用的 U-NET 架構,加入 Transformer 和 Diffusion 結合的大家族。
而具體的原理和進步啥的,看不懂沒關系,咱們過會兒再聊。
直接先來一波全新的高清無碼大圖,讓大夥們見識下 Stable Diffusion 3 的斤兩。
其中文字渲染能力,是這次 Stable Diffusion 3 比較突出的一個亮點。
因爲不咋識字兒、不怎麽會寫字兒,可以說是目前文生圖、文生視頻的通病了。
就拿世超用 DALL · E 3 生成的 " Chaping 青花瓷 " 爲例,上面漢字不明所以。。。最重要的 " Chaping " 還拼寫錯了。。。
基本上可以說自 AI 畫圖不會畫手之後,把文本渲染成圖像裏準确的文字,也是個難題。
而新版本的 Stable Diffusion ,文化水平就明顯高了不少。
根據官網給出的案例,給它提示詞是 " 一輛跑車的夜間照片,側面寫着 ' SD3 ' ,汽車在賽道上高速行駛,巨大的路标上寫着 'Faster' 的文字 " 。
生成的圖片不但符合描述,文字的位置也沒毛病,字體也很清晰。
但當我們用同樣的提示詞在 DALL · E 3 生成的時候,文字渲染效果就有些一言難盡了。
Faster 倒是沒錯,但側面的 SD3 沒有一張圖是準确的。
還有這張, Stable Diffusion 3 生成的是這樣的。
而 DALL · E 3 連 incredible 都沒拼對。
隻不過,現在目前的文字渲染暫時隻支持英文,中文還得等上那麽一段時間。
再來看這次 Stable Diffusion 3 的另一大更新——多主題提示,大夥兒可以把這個理解成, AI 在生成圖片的過程中漏沒漏提示詞。
舉個例子,這張圖的提示詞裏,大緻包括了宇航員、穿着芭蕾舞短裙撐着粉色雨傘的豬、戴着禮帽的知更鳥、還有角落裏的 "Stable Diffusion" 幾個關鍵。
咱先不提圖片的質量如何,但該生成的東西起碼 AI 都沒落下。
不過有意思的是,在這條推文下有網友把同樣的提示詞,分别喂給了 Midjourney 、 DALLE-3 和 Bing 。
看下來, DALLE-3 、 Bing 和 Midjourney 要不就是知更鳥少了帽子,要不就是 "Stable Diffusion" 單詞拼寫錯誤,沒一個能打的。
最後,是文生圖模型最爲關鍵的圖像質量。
Stable Diffusion 3 也是人狠話不多, po 了一張這樣的圖片。
世超第一眼看到的反應:這難道不是照片???
手帕上的紋理還有老虎刺繡,未免有點過于逼真了吧。。。
還有這張蘋果,也是能以假亂真的程度。
而之所以 Stable Diffusion 3 這次能有這麽大改變,很大可能要歸功于一個跟 Sora 同源的架構。
以前的 Stable Diffusion ,一般都是用 U-net 架構 + Diffusion 擴散模型。而 Transformer ,也多是用在像 GPT 類大語言模型上,兩種技術各管各的。
而 OpenAI 則覺得 GPT 這把咱用Transformer 打赢了,就不改 banpick 了吧。。。于是就把Transformer 架構和 Diffusion 結合了起來,用在視頻上,一頓魔改和大力出奇迹後,就整出了 Sora 。
Stability AI 團隊也是英雄所見略同,把Diffusion Transformer ( 簡稱 Dit 架構 )用在了 Stable Diffusion 3 上。
有意思的是,關于 DiT 架構的論文是 AI 大佬謝賽甯和 William Peebles 一起寫的。
這個 William Peebles ,正好是 Sora 團隊的負責人之一。
Stability AI 的老闆 Emad 也在 X ( 推特 )上表示,這次确實用到了和 sora 類似的技術。
另外,這次 Stable Diffusion 3 還用到了一個 Flow Matching ( 流匹配 )技術。
因爲技術原理過于複雜,咱們可以簡單理解成,這是一種用來訓練擴散模型的方法。
如果把擴散模型比作魔法畫筆,那這個流匹配的作用就是升級畫筆,讓畫筆可以更快、更準确地畫出你想要的東西。
世超估計也正是因爲這個技術, Stable Diffusion 3 的文化水平才暴增的。
總而言之,光從現有的官方效果圖和技術公開來看,這次 Stable Diffusion 3 的出現,又把文生圖卷到了一個新高度,也證明了 Dit 架構在文生圖、文生視頻領域确實是個可行的新方向。
反正這麽下去,保不齊下一波誰家又會拿出重磅更新。
不過大夥兒也别太焦慮,該吃吃該喝喝,要是有時間學學怎麽用 AI 也行。
最後提個醒, Stable Diffusion 3 現在還沒正式公測,千萬别又讓賣課的給騙了。