文|李然
編輯|蘇建勳
雖然總裁辭職了,核心團隊跳槽了,但是 Stability AI 仍然在發貨。
圖源:X
昨天夜裏,Stability AI 正式發布了 Stable Diffusion 3 API,在 SD3 的技術報告公布幾個月之後,用戶終于可以上手試用了。
但可惜的是,完全開源的 SD3 模型依然還在路上,不過他們承諾,對于普通用戶,SD3 模型不會收費。
現在,用戶可以通過 Fireworks AI 訪問 SD3 的 API。
根據 SD3 技術報告,SD3 相比 DALL · E 3 和 Midjourney,能夠更好地遵循用戶提示。
來源:官網
SD 3 新的多模态擴散變壓器 ( MMDiT ) 架構對圖像和語言表示使用單獨的權重集,與之前版本的穩定擴散相比,它提高了文本理解和拼寫能力。
可以看到,用戶可以非常精準地控制需要出現在圖片中地文字内容。
新模型生成的逼真圖片,足以以假亂真。
Prompt: Portrait photograph of ananthropomorphic tortoise seated on a New York City subway train. 圖源:X
對于完全虛構的圖片也能做到美學和細節真實度的統一。
Prompt: Aesthetic pastel magical realism, a manwith a retro TV for a head, standing in the centerof the desert, vintage photo. 圖源:X
調用 API,網友用 SD 和 ChatGPT 做了一個小遊戲。
在他看來,SD3 能比 DALL · E 有更好的風格一緻性,對于生成一個系統工程中的美術素材表現得更好。
網友也分享更多用 SD3 生成的作品。
可以看到,如果對于圖片内容中的文字有明确要求,SD3 是爲數不多能滿足要求的模型。
機器人的手似乎也沒有瑕疵了。
人物面部的細節非常真實。
獅頭機器人。
機械風的中國龍造型也是細節滿滿,惟妙惟肖。
很多調用 SD3 API 的 APP 也在 Stability AI 官推下面,用 SD3 生成的圖片給自己的 API 打起了廣告。
模型核心構架
SD3 的核心技術在于 StabilityAI 開發的 MMDiT 技術。
模型使用三種不同的文本嵌入器(兩個 CLIP 模型和 T5)來編碼文本表示,并使用改進的自動編碼模型來編碼圖像 token。
而這個構架的核心,采用的是和 Sora 一樣的 DiT 技術。
由于文本和圖像嵌入在概念上完全不同,因此他們對這兩種模式使用兩組獨立的權重。如上圖所示,這相當于每種模态都有兩個獨立的轉換器,但是将兩種模态的序列連接起來進行注意力操作,這樣兩種表征都可以在自己的空間中工作,同時考慮另一種表征。
在這樣的特殊安排之下,MMDiT 的性能超越了傳統的 UViT 或者 DiT 本身。
通過使用這種方法,信息可以在圖像和文本标記之間流動,以提高生成的輸出中的整體理解和排版。這種架構還可以輕松擴展到視頻等多種模式。
得益于 SD3 改進的提示跟随功能,模型能夠創建專注于各種不同主題和質量的圖像,同時對圖像本身的風格保持高度靈活性。