白交 豐色 發自 凹非寺
量子位 | 公衆号 QbitAI
Stable Diffusion 3,它終于來了!
足足醞釀一年之多,相比上一代一共進化了三大能力。
來,直接上效果!
首先,是開挂的文字渲染能力。
且看這黑闆上的粉筆字:
Go Big or Go Home(不成功便成仁),這個倒是殺氣騰騰啊~
路牌、公交燈牌的霓虹效果:
還有刺繡上 " 勾 " 得快要看到針腳的 " 晚安 ":
作品一擺出,網友就大呼:太精确了。
以至于有人表示:趕緊把中文也安排上啊。
其次,多主題提示能力直接拉滿。
什麽意思?你盡管一次性往提示詞中塞入 n 多 " 元素 ",Stable Diffusion 3:漏一個算我輸。
呐,仔細瞅下圖,這裏面就有 " 宇航員 "、" 穿着芭蕾舞裙的小豬 "、" 粉色雨傘 "、" 戴着禮帽的知更鳥 ",角落裏還有 "Stable Diffusion" 幾個大字(可不是什麽水印)。
有了這個能力,一幅作品你想多豐富就有多豐富。
最後,當屬圖像質量,再次進化了一個度。
光看前面這些圖,就被沖擊到有沒有?!
而各種超清特寫,那是再信手拈來不過的了。
心動嗎?目前官方已開放排隊名單,大夥可以前往官網申請。
咳咳,也不得不說,最近這 AI 圈可真是相當熱鬧啊。
有網友直呼,我的電腦已經 Hold 不住了……
Stable Diffusion 3 來了!
全新的 Stable Diffusion 效果有多好,再給大夥奉送一些。
當然,所有出圖均來自官方,比如 StabilityAI 媒體負責人:
不得不說,文字效果實在最爲吸人眼球,各種形式都能呈現得相當清楚和 " 應景 "。
而看到上面這幅圖,不得不想到 "Midjourney 尴尬亮相學術界:爲生物學論文亂配圖 " 一事——有了 SD3 之後,我們是不是可以制作非常專業的學術配圖了?
除了這些,SD3 的 " 酒精水墨畫 " 也相當别出心裁:
動漫風格:
again,你可以在上面加清晰的文字了。
由于目前需要排隊申請,大夥還不好實際測試摸底。
不過有機智的網友已經用相同的提示詞喂給了 Midjourney(v 6.0)。
比如開頭的那張 " 紅蘋果與黑闆字 "(prompt:cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk)
最終 Midjourney 給出的結果如下:
從這組對比來看,可以說是高下立判—— SD3 無論是文字拼寫還是質量、色彩協調性等方面都更勝一籌。
技術方面,目前,模型可選擇的參數範圍在 800M 到 8B。
詳細的技術報告還未公布,官方目前隻透露主要結合了擴散型 transformer 架構以及 flow matching。
前者實際上同 Sora 一樣,附上的技術論文正是 22 年 William Peebles 同謝賽甯合寫的 DiT。
DiT 首次将 Transformer 與擴散模型結合到了一起,相關論文被 ICCV 2023 錄用爲 Oral 論文。
在該研究中,研究者訓練了潛在擴散模型,用對潛在 patch 進行操作的 Transformer 替換常用的 U-Net 主幹網絡。他們通過以 Gflops 衡量的前向傳遞複雜度來分析擴散 Transformer ( DiT ) 的可擴展性。
而後者 flow matching 同樣也是來自 22 年,由 Meta AI 以及魏茨曼科學研究所的科學家完成。
他們提出了基于連續歸一化流(CNFs)的生成模型新範式,以及 flow matching 的概念,這是一種基于回歸固定條件概率路徑的矢量場的免模拟 CNFs 的方法。結果發現使用帶有擴散路徑的 flow matching,可以訓練出來的模型更穩健和穩定。
不過最近看了這麽多視頻生成進展,也有網友表示:
你覺得呢?
One More Thing
除此之外,也就在前一天,他們的視頻産品 Stable Video 正式開放公測。
基于 SVD1.1(Stable Video Diffusion 1.1),人人可用。
主要支持文生視頻和圖生視頻兩個功能。